論文の概要: Atomic Consistency Preference Optimization for Long-Form Question Answering
- arxiv url: http://arxiv.org/abs/2505.09039v1
- Date: Wed, 14 May 2025 00:39:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.335481
- Title: Atomic Consistency Preference Optimization for Long-Form Question Answering
- Title(参考訳): 長期質問応答に対する原子間整合性優先最適化
- Authors: Jingfeng Chen, Raghuveer Thirukovalluru, Junlin Wang, Kaiwei Luo, Bhuwan Dhingra,
- Abstract要約: 大きな言語モデル(LLM)は、しばしばファクトイドの幻覚を生成する。
一般的な緩和戦略はモデルアライメントであり、これは、キュレートされた実数対と非実数対のトレーニングによって、実数精度を向上させる。
本稿では,外部の監督なしに現実の精度を向上する自己監督的選好調整手法であるACPOを提案する。
- 参考スコア(独自算出の注目度): 7.569344797121206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) frequently produce factoid hallucinations - plausible yet incorrect answers. A common mitigation strategy is model alignment, which improves factual accuracy by training on curated factual and non-factual pairs. However, this approach often relies on a stronger model (e.g., GPT-4) or an external knowledge base to assess factual correctness, which may not always be accessible. To address this, we propose Atomic Consistency Preference Optimization (ACPO), a self-supervised preference-tuning method that enhances factual accuracy without external supervision. ACPO leverages atomic consistency signals, i.e., the agreement of individual facts across multiple stochastic responses, to identify high- and low-quality data pairs for model alignment. By eliminating the need for costly GPT calls, ACPO provides a scalable and efficient approach to improving factoid question-answering. Despite being self-supervised, empirical results demonstrate that ACPO outperforms FactAlign, a strong supervised alignment baseline, by 1.95 points on the LongFact and BioGen datasets, highlighting its effectiveness in enhancing factual reliability without relying on external models or knowledge bases.
- Abstract(参考訳): 大きな言語モデル(LLM)は、しばしばファクトイドの幻覚を生成する。
一般的な緩和戦略はモデルアライメントであり、これは、キュレートされた実数対と非実数対のトレーニングによって、実数精度を向上させる。
しかし、このアプローチは多くの場合、より強力なモデル(例えば、GPT-4)や外部知識ベースに頼り、事実の正確性を評価する。
そこで本研究では,外部の監視を伴わずに現実の精度を高める自己監督的選好調整手法であるACPOを提案する。
ACPOは原子の一貫性信号、すなわち複数の確率応答における個々の事実の一致を利用して、モデルアライメントのための高品質と低品質のデータペアを識別する。
コストのかかるGPTコールを不要にすることで、ACPOはファクトイドの質問応答を改善するためのスケーラブルで効率的なアプローチを提供する。
自己監督されているにもかかわらず、実証的な結果は、ACPOが強力な教師付きアライメントベースラインであるFactAlignを、LongFactとBioGenのデータセットで1.95ポイント上回っており、外部モデルや知識ベースに頼ることなく、事実の信頼性を高める効果を強調していることを示している。
関連論文リスト
- Self-Memory Alignment: Mitigating Factual Hallucinations with Generalized Improvement [37.59724553583446]
大きな言語モデル(LLM)は、しばしば客観的な事実と反応を一致させるのに苦労し、結果として幻覚をもたらす。
自己記憶アライメント(SMA)を導入し、正確かつ単純な事実質問に対する自己生成応答のモデルを微調整する。
大規模な実験により、SMAはLLMの全体的な性能を著しく改善し、現実性に関する様々なベンチマークを一貫して強化し、有用性や包括的スキルも向上した。
論文 参考訳(メタデータ) (2025-02-26T13:34:52Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Enhanced Language Model Truthfulness with Learnable Intervention and Uncertainty Expression [19.69104070561701]
大きな言語モデル(LLM)は長文で一貫性のあるテキストを生成することができるが、事実を幻覚させることが多い。
真性最適化のための学習可能なインターベンション手法であるLITOを提案する。
複数のLLMと質問応答データセットの実験は、LITOがタスク精度を維持しながら真理性を改善することを示した。
論文 参考訳(メタデータ) (2024-05-01T03:50:09Z) - Decomposed Adversarial Learned Inference [118.27187231452852]
我々は,DALI(Decomposed Adversarial Learned Inference)という新しいアプローチを提案する。
DALIは、データ空間とコード空間の両方の事前および条件分布を明示的に一致させる。
MNIST, CIFAR-10, CelebAデータセットにおけるDALIの有効性を検証する。
論文 参考訳(メタデータ) (2020-04-21T20:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。