論文の概要: Teaching with Lies: Curriculum DPO on Synthetic Negatives for Hallucination Detection
- arxiv url: http://arxiv.org/abs/2505.17558v1
- Date: Fri, 23 May 2025 07:05:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.889066
- Title: Teaching with Lies: Curriculum DPO on Synthetic Negatives for Hallucination Detection
- Title(参考訳): ライズによる授業:幻覚検出のための合成ネガティクスに関するカリキュラムDPO
- Authors: Shrey Pandit, Ashwin Vinod, Liu Leqi, Ying Ding,
- Abstract要約: 幻覚標本は、通常、従来の陰性試料よりも高い知覚品質を示す。
DPOアライメント法では,これらの注意深い幻覚を否定的な例として用いている。
本手法はカリキュラム学習戦略を取り入れ,より簡単なサンプルからより難しいものへ段階的に学習を移行させる。
- 参考スコア(独自算出の注目度): 9.841389413216257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning large language models (LLMs) to accurately detect hallucinations remains a significant challenge due to the sophisticated nature of hallucinated text. Recognizing that hallucinated samples typically exhibit higher deceptive quality than traditional negative samples, we use these carefully engineered hallucinations as negative examples in the DPO alignment procedure. Our method incorporates a curriculum learning strategy, gradually transitioning the training from easier samples, identified based on the greatest reduction in probability scores from independent fact checking models, to progressively harder ones. This structured difficulty scaling ensures stable and incremental learning. Experimental evaluation demonstrates that our HaluCheck models, trained with curriculum DPO approach and high quality negative samples, significantly improves model performance across various metrics, achieving improvements of upto 24% on difficult benchmarks like MedHallu and HaluEval. Additionally, HaluCheck models demonstrate robustness in zero-shot settings, significantly outperforming larger state-of-the-art models across various benchmarks.
- Abstract(参考訳): 幻覚を正確に検出するための大型言語モデル (LLM) の調整は、幻覚テキストの洗練された性質のため重要な課題である。
DPOアライメント法では, 従来の陰性試料よりも幻覚の質が高いことが認識され, 注意深い幻覚を陰性例として用いた。
本手法はカリキュラム学習戦略を取り入れ,より簡単なサンプルから,独立した事実チェックモデルからの確率スコアの最大値から,段階的に難しいものへと,段階的にトレーニングを移行する。
この構造化された難易度スケーリングは、安定的で漸進的な学習を保証する。
実験により,カリキュラムDPOアプローチと高品質な負のサンプルを用いてトレーニングしたHaluCheckモデルは,さまざまなメトリクスにわたるモデル性能を著しく向上し,MedHalluやHaluEvalといった難しいベンチマークで最大24%の改善を実現していることがわかった。
さらに、HaluCheckモデルはゼロショット設定でロバスト性を示し、様々なベンチマークで大きな最先端モデルを上回っている。
関連論文リスト
- Mitigating Image Captioning Hallucinations in Vision-Language Models [13.707454974844095]
視覚言語モデルの幻覚は、信頼性と現実の応用性を妨げている。
本稿では,推論中の幻覚を緩和するための強化学習を用いた新しいテスト時間適応フレームワークを提案する。
本手法は, 幻覚緩和効果が68.3%向上し, 最先端のベースラインを上回った。
論文 参考訳(メタデータ) (2025-05-06T10:55:21Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Unfamiliar Finetuning Examples Control How Language Models Hallucinate [75.03210107477157]
大規模な言語モデルは、馴染みのないクエリに直面した時に幻覚化することが知られている。
モデルの微調整データの見慣れない例は、これらのエラーを形作るのに不可欠である。
本研究は,RLファインタニング戦略をさらに研究し,長大なモデル生成の現実性を改善することを目的とする。
論文 参考訳(メタデータ) (2024-03-08T18:28:13Z) - Which Augmentation Should I Use? An Empirical Investigation of Augmentations for Self-Supervised Phonocardiogram Representation Learning [5.438725298163702]
自己監視型学習(SSL) 対照的な学習は、データの不足を軽減できる可能性を示している。
本研究の目的は,PCG分類におけるSSLモデルの性能向上を目的とした,幅広いオーディオベースの拡張と組み合わせの探索と評価である。
論文 参考訳(メタデータ) (2023-12-01T11:06:00Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Towards Robust Visual Question Answering: Making the Most of Biased
Samples via Contrastive Learning [54.61762276179205]
我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。
具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。
我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
論文 参考訳(メタデータ) (2022-10-10T11:05:21Z) - DiscrimLoss: A Universal Loss for Hard Samples and Incorrect Samples
Discrimination [28.599571524763785]
ラベルノイズ(すなわち不正なデータ)が与えられた場合、ディープニューラルネットワークはラベルノイズとモデル性能を徐々に記憶する。
この問題を解消するために,カリキュラム学習を提案し,学習サンプルを有意義な順序で順序付けすることで,モデル性能と一般化を向上させる。
論文 参考訳(メタデータ) (2022-08-21T13:38:55Z) - Minority Class Oversampling for Tabular Data with Deep Generative Models [4.976007156860967]
オーバーサンプリングによる非バランスな分類タスクの性能向上を図るために, 深層生成モデルを用いて現実的なサンプルを提供する能力について検討した。
実験の結果,サンプリング手法は品質に影響を与えないが,実行環境は様々であることがわかった。
また、性能指標の点でも改善が重要であるが、絶対的な点では小さな点がしばしば見られる。
論文 参考訳(メタデータ) (2020-05-07T21:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。