論文の概要: GRAID: Synthetic Data Generation with Geometric Constraints and Multi-Agentic Reflection for Harmful Content Detection
- arxiv url: http://arxiv.org/abs/2508.17057v1
- Date: Sat, 23 Aug 2025 15:09:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.318861
- Title: GRAID: Synthetic Data Generation with Geometric Constraints and Multi-Agentic Reflection for Harmful Content Detection
- Title(参考訳): GRAID: 幾何学的制約付き合成データ生成と有害コンテンツ検出のためのマルチエージェント反射
- Authors: Melissa Kazemi Rad, Alberto Purpura, Himanshu Kumar, Emily Chen, Mohammad Shahed Sorower,
- Abstract要約: 我々は、データセット拡張のための新しいパイプラインであるGRAID(Geometric and Reflective AI-Driven Data Augmentation)を紹介する。
GRAID は (i) 制約付き LLM を用いた幾何学的制御例の生成と (ii) マルチエージェント反射過程による拡張の2段階からなる。
GRAIDを用いた有害テキスト分類データセットの強化により,下流ガードレールモデルの性能が大幅に向上することが実証された。
- 参考スコア(独自算出の注目度): 4.61489054791777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the problem of data scarcity in harmful text classification for guardrailing applications and introduce GRAID (Geometric and Reflective AI-Driven Data Augmentation), a novel pipeline that leverages Large Language Models (LLMs) for dataset augmentation. GRAID consists of two stages: (i) generation of geometrically controlled examples using a constrained LLM, and (ii) augmentation through a multi-agentic reflective process that promotes stylistic diversity and uncovers edge cases. This combination enables both reliable coverage of the input space and nuanced exploration of harmful content. Using two benchmark data sets, we demonstrate that augmenting a harmful text classification dataset with GRAID leads to significant improvements in downstream guardrail model performance.
- Abstract(参考訳): GRAID(Geometric and Reflective AI-Driven Data Augmentation,Geometric and Reflective AI-Driven Data Augmentation,Geometric and Reflective AI-Driven Data Augmentation)を導入した。
GRAIDは2つの段階から構成される。
一 制約 LLM を用いた幾何制御例の生成及び
(II) 形式的多様性を促進し, エッジケースを明らかにする多面的反射過程による拡張。
この組み合わせにより、入力空間の信頼性の高いカバレッジと有害なコンテンツの微妙な探索が可能である。
2つのベンチマークデータセットを用いて、有害テキスト分類データセットをGRAIDで拡張することにより、下流ガードレールモデルの性能が大幅に向上することを示した。
関連論文リスト
- Concept-Aware LoRA for Domain-Aligned Segmentation Dataset Generation [66.66243874361103]
1) 生成されたサンプルを対象のドメインに整列させ、2) トレーニングデータ以外の情報的なサンプルを生成する。
本稿では,ドメインアライメントに必要な概念に関連する重みのみを選択的に識別・更新する,新しい微調整手法であるConcept-Aware LoRAを提案する。
都市・シーンのセグメンテーション, ベースライン, 最先端の手法をドメイン内設定で生成する上での有効性を実証する。
論文 参考訳(メタデータ) (2025-03-28T06:23:29Z) - Enhancing Unsupervised Sentence Embeddings via Knowledge-Driven Data Augmentation and Gaussian-Decayed Contrastive Learning [37.54523122932728]
大規模言語モデル(LLM)を用いたパイプラインベースのデータ拡張手法を提案する。
本稿では,非教師なし文の埋め込みを改善するために,ガウス型勾配支援コントラスト文埋め込み(GCSE)モデルを提案する。
実験結果から,本手法は意味的テキスト類似性タスクにおける最先端性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2024-09-19T16:29:58Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Implicit Counterfactual Data Augmentation for Robust Learning [24.795542869249154]
本研究では, 突発的相関を除去し, 安定した予測を行うために, インプリシト・カウンセショナル・データ拡張法を提案する。
画像とテキストのデータセットをカバーする様々なバイアス付き学習シナリオで実験が行われてきた。
論文 参考訳(メタデータ) (2023-04-26T10:36:40Z) - Virtual Data Augmentation: A Robust and General Framework for
Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。
VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。
本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文 参考訳(メタデータ) (2021-09-13T09:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。