論文の概要: Controlled Automatic Task-Specific Synthetic Data Generation for Hallucination Detection
- arxiv url: http://arxiv.org/abs/2410.12278v1
- Date: Wed, 16 Oct 2024 06:31:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:44:56.135735
- Title: Controlled Automatic Task-Specific Synthetic Data Generation for Hallucination Detection
- Title(参考訳): 幻覚検出のためのタスク特化合成データ生成制御
- Authors: Yong Xie, Karan Aggarwal, Aitzaz Ahmad, Stephen Lau,
- Abstract要約: 幻覚検出のための非自明なタスク固有合成データセットを自動生成する新しい手法を提案する。
提案手法は,幻覚パターンのガイダンスと生成中の言語スタイルのアライメントを用いて,2段階の世代選択パイプラインを特徴とする。
我々の幻覚検出装置は、合成データセットで訓練され、ICL(In-context-learning)ベースの検出器よりも32%大きなマージンで優れていた。
- 参考スコア(独自算出の注目度): 7.167234584287035
- License:
- Abstract: We present a novel approach to automatically generate non-trivial task-specific synthetic datasets for hallucination detection. Our approach features a two-step generation-selection pipeline, using hallucination pattern guidance and a language style alignment during generation. Hallucination pattern guidance leverages the most important task-specific hallucination patterns while language style alignment aligns the style of the synthetic dataset with benchmark text. To obtain robust supervised detectors from synthetic datasets, we also adopt a data mixture strategy to improve performance robustness and generalization. Our results on three datasets show that our generated hallucination text is more closely aligned with non-hallucinated text versus baselines, to train hallucination detectors with better generalization. Our hallucination detectors trained on synthetic datasets outperform in-context-learning (ICL)-based detectors by a large margin of 32%. Our extensive experiments confirm the benefits of our approach with cross-task and cross-generator generalization. Our data-mixture-based training further improves the generalization and robustness of hallucination detection.
- Abstract(参考訳): 幻覚検出のための非自明なタスク固有合成データセットを自動生成する新しい手法を提案する。
提案手法は,幻覚パターンのガイダンスと生成中の言語スタイルのアライメントを用いて,2段階の世代選択パイプラインを特徴とする。
幻覚パターンガイダンスは、最も重要なタスク固有の幻覚パターンを活用する一方、言語スタイルのアライメントは、合成データセットのスタイルをベンチマークテキストと整合させる。
合成データセットからロバストな教師付き検出器を得るために、データ混合戦略を採用し、性能ロバスト性および一般化を改善した。
3つのデータセットで得られた結果から,生成した幻覚テキストは,非幻覚テキストとベースラインとの密接な整合性を示し,より一般化した幻覚検出器の訓練を行った。
我々の幻覚検出装置は、合成データセットで訓練され、ICL(In-context-learning)ベースの検出器よりも32%大きなマージンで優れていた。
我々は,クロスタスクとクロスジェネレータの一般化によるアプローチの利点を検証した。
データミキサーに基づくトレーニングは、幻覚検出の一般化と堅牢性をさらに向上させる。
関連論文リスト
- ToolFlow: Boosting LLM Tool-Calling Through Natural and Coherent Dialogue Synthesis [80.34000499166648]
より関連性の高いツールの組み合わせをサンプリングするためのグラフベースのサンプリング戦略と、コヒーレントな対話の合成を導く計画を作成するための計画生成戦略を提案する。
ツールフローで生成した8000の合成対話を用いてLLaMA-3.1-8BにSFTを適用した。
その結果,GPT-4に匹敵するツールコール性能が得られた。
論文 参考訳(メタデータ) (2024-10-24T05:45:04Z) - Pre-Training Multimodal Hallucination Detectors with Corrupted Grounding Data [4.636499986218049]
マルチモーダル言語モデルは、その出力に幻覚を示し、信頼性を制限できる。
本稿では, 崩壊した地盤データを作成することにより, これらのモデルのサンプル効率を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T20:11:00Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - MALTO at SemEval-2024 Task 6: Leveraging Synthetic Data for LLM
Hallucination Detection [3.049887057143419]
自然言語生成(NLG)では、現代のLarge Language Models(LLM)がいくつかの課題に直面している。
これはしばしば「幻覚」を示すニューラルネットワークにつながる
SHROOMチャレンジは、生成されたテキストでこれらの幻覚を自動的に識別することに焦点を当てている。
論文 参考訳(メタデータ) (2024-03-01T20:31:10Z) - Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Dual Stage Stylization Modulation for Domain Generalized Semantic
Segmentation [39.35385886870209]
In the Adversarial Semantic Hallucination+ framework。
本手法は,各画素に対する意味情報を活用することにより,画素単位の幻覚強度を適応的に調整する。
提案手法の有効性を,公開されているセマンティックセグメンテーションベンチマークデータセットの総合的な実験により検証する。
論文 参考訳(メタデータ) (2023-04-18T23:54:20Z) - Don't Say What You Don't Know: Improving the Consistency of Abstractive
Summarization by Constraining Beam Search [54.286450484332505]
本研究は,幻覚とトレーニングデータの関連性を解析し,学習対象の要約を学習した結果,モデルが幻覚を呈する証拠を見出した。
本稿では,ビーム探索を制約して幻覚を回避し,変換器をベースとした抽象要約器の整合性を向上させる新しい復号法であるPINOCCHIOを提案する。
論文 参考訳(メタデータ) (2022-03-16T07:13:52Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。