論文の概要: Exploring Empty Spaces: Human-in-the-Loop Data Augmentation
- arxiv url: http://arxiv.org/abs/2410.01088v1
- Date: Tue, 1 Oct 2024 21:33:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 23:20:41.433260
- Title: Exploring Empty Spaces: Human-in-the-Loop Data Augmentation
- Title(参考訳): Empty Spacesを探求する - 最先端のデータ拡張
- Authors: Catherine Yeh, Donghao Ren, Yannick Assogba, Dominik Moritz, Fred Hohman,
- Abstract要約: Amplioは、専門家が構造化されていないテキストデータセットで"未知の未知"をナビゲートするのを支援するインタラクティブツールである。
我々は,高品質で多様性があり,関連するモデル安全性プロンプトを生成するための拡張手法の有用性を実証する。
- 参考スコア(独自算出の注目度): 16.962209659268815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation is crucial to make machine learning models more robust and safe. However, augmenting data can be challenging as it requires generating diverse data points to rigorously evaluate model behavior on edge cases and mitigate potential harms. Creating high-quality augmentations that cover these "unknown unknowns" is a time- and creativity-intensive task. In this work, we introduce Amplio, an interactive tool to help practitioners navigate "unknown unknowns" in unstructured text datasets and improve data diversity by systematically identifying empty data spaces to explore. Amplio includes three human-in-the-loop data augmentation techniques: Augment With Concepts, Augment by Interpolation, and Augment with Large Language Model. In a user study with 18 professional red teamers, we demonstrate the utility of our augmentation methods in helping generate high-quality, diverse, and relevant model safety prompts. We find that Amplio enabled red teamers to augment data quickly and creatively, highlighting the transformative potential of interactive augmentation workflows.
- Abstract(参考訳): 機械学習モデルをより堅牢で安全にするためには、データ拡張が不可欠だ。
しかし、エッジケースのモデル動作を厳格に評価し、潜在的な害を軽減するために、多様なデータポイントを生成する必要があるため、データの増大は困難である。
これらの"未知の未知"をカバーする高品質な拡張を作ることは、時間と創造性に重きを置きます。
本研究では,非構造化テキストデータセットの"未知の未知"をナビゲートするインタラクティブツールであるAmplioを紹介し,空のデータ空間を体系的に同定してデータの多様性を向上させる。
Amplioには、Augment with Concepts、Augment by Interpolation、Augment with Large Language Modelという、ループ内のデータ拡張技術が3つ含まれている。
18名のプロレッドチームによるユーザスタディでは、高品質で多様性があり、関連するモデル安全性のプロンプトを生成する上で、拡張手法の有用性を実証している。
Amplioによってレッドチームでは、データを迅速かつ創造的に拡張することができ、インタラクティブな拡張ワークフローの変革の可能性を強調しています。
関連論文リスト
- A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Generative Expansion of Small Datasets: An Expansive Graph Approach [13.053285552524052]
最小限のサンプルから大規模で情報豊富なデータセットを生成する拡張合成モデルを提案する。
自己アテンション層と最適なトランスポートを持つオートエンコーダは、分散一貫性を洗練させる。
結果は同等のパフォーマンスを示し、モデルがトレーニングデータを効果的に増強する可能性を示している。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - NNOSE: Nearest Neighbor Occupational Skill Extraction [55.22292957778972]
作業スキルデータセットの複雑さに対処する。
我々は、データセット統一方式で類似したスキルを検索するために、外部データストアを使用します。
我々は、データセット間設定において、頻度の低いパターンを予測し、最大30%のスパンF1で性能向上を観察する。
論文 参考訳(メタデータ) (2024-01-30T15:18:29Z) - A Survey on Data Augmentation in Large Model Era [16.05117556207015]
大きな言語と拡散モデルを含む大きなモデルは、人間レベルの知能を近似する上で非常に有望である。
これらのモデルへの継続的な更新により、既存の高品質なデータの貯水池はすぐに枯渇する可能性がある。
本稿では,大規模モデル駆動型データ拡張手法について概観する。
論文 参考訳(メタデータ) (2024-01-27T14:19:33Z) - DualAug: Exploiting Additional Heavy Augmentation with OOD Data
Rejection [77.6648187359111]
そこで本稿では,textbfDualAug という新しいデータ拡張手法を提案する。
教師付き画像分類ベンチマークの実験では、DualAugは様々な自動データ拡張法を改善している。
論文 参考訳(メタデータ) (2023-10-12T08:55:10Z) - Time Series Contrastive Learning with Information-Aware Augmentations [57.45139904366001]
コントラスト学習の鍵となる要素は、いくつかの先行を示唆する適切な拡張を選択して、実現可能な正のサンプルを構築することである。
対照的な学習タスクやデータセットに意味のある時系列データの増大をどうやって見つけるかは、未解決の問題である。
本稿では,時系列表現学習のための最適な拡張を適応的に選択する情報認識拡張を用いた新しいコントラスト学習手法であるInfoTSを提案する。
論文 参考訳(メタデータ) (2023-03-21T15:02:50Z) - Advanced Data Augmentation Approaches: A Comprehensive Survey and Future
directions [57.30984060215482]
データ拡張の背景、レビューされたデータ拡張技術の新しい包括的分類法、および各技術の強さと弱点(可能ならば)を提供する。
また、画像分類、オブジェクト検出、セマンティックセグメンテーションなどの3つの一般的なコンピュータビジョンタスクに対して、データ拡張効果の総合的な結果を提供する。
論文 参考訳(メタデータ) (2023-01-07T11:37:32Z) - Joint Data and Feature Augmentation for Self-Supervised Representation
Learning on Point Clouds [4.723757543677507]
ユークリッド空間におけるデータ拡張と特徴空間における特徴拡張を組み合わせた融合コントラスト学習フレームワークを提案する。
提案手法の伝達性を検証するため,広範囲な対象分類実験と対象部分分割実験を行う。
実験の結果,提案フレームワークは,自己指導型でポイントクラウド表現を学習する上で有効であることが示された。
論文 参考訳(メタデータ) (2022-11-02T14:58:03Z) - MetAug: Contrastive Learning via Meta Feature Augmentation [28.708395209321846]
対照的な学習は、情報的特徴、すなわち「堅い」(肯定的または否定的な)特徴に大きく依存している、と我々は主張する。
このような特徴を探索する上で重要な課題は、ランダムなデータ拡張を適用することで、ソースのマルチビューデータを生成することである。
本稿では,潜在空間における特徴を直接拡張し,大量の入力データなしで識別表現を学習することを提案する。
論文 参考訳(メタデータ) (2022-03-10T02:35:39Z) - Understanding the World Through Action [91.3755431537592]
ラベルのないデータを利用するための汎用的で原則的で強力なフレームワークは、強化学習から導き出すことができると私は主張する。
このような手順が、下流の潜在的なタスクとどのように密接に一致しているかについて論じます。
論文 参考訳(メタデータ) (2021-10-24T22:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。