論文の概要: SSFO: Self-Supervised Faithfulness Optimization for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2508.17225v1
- Date: Sun, 24 Aug 2025 06:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.413302
- Title: SSFO: Self-Supervised Faithfulness Optimization for Retrieval-Augmented Generation
- Title(参考訳): SSFO: 検索拡張生成のための自己監督的忠実度最適化
- Authors: Xiaqiang Tang, Yi Wang, Keyu Hu, Rui Xu, Chuang Li, Weigao Sun, Jian Li, Sihong Xie,
- Abstract要約: 我々は,RAGの忠実度を高めるために,自己監督的忠実度最適化(SSFO)を導入する。
SSFOは、コンテキストを伴わずに生成されたモデルの出力を対比することで、好みのデータペアを構築する。
SSFOは既存の手法よりも優れており,複数の文脈に基づく質問応答データセットに対する最先端の忠実性を実現している。
- 参考スコア(独自算出の注目度): 20.129079009870125
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems require Large Language Models (LLMs) to generate responses that are faithful to the retrieved context. However, faithfulness hallucination remains a critical challenge, as existing methods often require costly supervision and post-training or significant inference burdens. To overcome these limitations, we introduce Self-Supervised Faithfulness Optimization (SSFO), the first self-supervised alignment approach for enhancing RAG faithfulness. SSFO constructs preference data pairs by contrasting the model's outputs generated with and without the context. Leveraging Direct Preference Optimization (DPO), SSFO aligns model faithfulness without incurring labeling costs or additional inference burden. We theoretically and empirically demonstrate that SSFO leverages a benign form of \emph{likelihood displacement}, transferring probability mass from parametric-based tokens to context-aligned tokens. Based on this insight, we propose a modified DPO loss function to encourage likelihood displacement. Comprehensive evaluations show that SSFO significantly outperforms existing methods, achieving state-of-the-art faithfulness on multiple context-based question-answering datasets. Notably, SSFO exhibits strong generalization, improving cross-lingual faithfulness and preserving general instruction-following capabilities. We release our code and model at the anonymous link: https://github.com/chkwy/SSFO
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、検索した文脈に忠実な応答を生成するために、Large Language Models (LLM) を必要とする。
しかし、既存の手法では、しばしばコストのかかる監督とポストトレーニング、あるいは重要な推論の負担を必要とするため、忠実な幻覚は依然として重要な課題である。
これらの制限を克服するために、RAG忠実度を高めるための最初の自己監督的アライメントアプローチである自己監督的忠実度最適化(SSFO)を導入する。
SSFOは、コンテキストを伴わずに生成されたモデルの出力を対比することで、好みのデータペアを構築する。
直接選好最適化(DPO)を活用して、SSFOはラベル付けコストや追加の推論負担を発生させることなく、モデルの忠実度を調整する。
理論的かつ実証的に、SSFOは、パラメトリックベースのトークンからコンテキスト整合トークンへ確率質量を移す、 \emph{likelihood shift} の良質な形式を活用することを証明している。
そこで本研究では, 転位回避のためのDPO損失関数を改良して提案する。
総合評価の結果、SSFOは既存の手法よりも優れており、複数の文脈に基づく質問応答データセットに対する最先端の忠実性を実現している。
特にSSFOは、強い一般化を示し、言語間の忠実性を改善し、一般的な命令追従能力を保っている。
コードとモデルを匿名リンクでリリースします。
関連論文リスト
- From Answers to Rationales: Self-Aligning Multimodal Reasoning with Answer-Oriented Chain-of-Thought [43.07899102255169]
現在のメソッドは主に肯定的な論理に重点を置いており、通常は手動のアノテーションや複雑なシステムに依存している。
textbfSelf-Aligning textbfMultimodal Reasoning with textbfAnswertextbfriented Chain-of-textbfThought。
論文 参考訳(メタデータ) (2025-07-01T08:24:51Z) - Feedback Guidance of Diffusion Models [0.0]
Interval-Free Guidance (CFG) は, 条件付き拡散モデルにおける試料の忠実度向上の標準となっている。
本稿では,FBG(FeedBack Guidance)を提案する。
論文 参考訳(メタデータ) (2025-06-06T13:46:32Z) - Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval [49.669503570350166]
生成情報検索(GenIR)は、文書識別子(ドシデント)生成タスクとして文書検索を定式化する有望なニューラル検索パラダイムである。
既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、ドキュメントレベルの関連性を効果的にキャプチャできないことが多い。
本稿では,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合するダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
論文 参考訳(メタデータ) (2025-04-07T15:27:37Z) - Generate, Discriminate, Evolve: Enhancing Context Faithfulness via Fine-Grained Sentence-Level Self-Evolution [61.80716438091887]
GenDiE (Generate, Discriminate, Evolve) は、微粒な文レベルの最適化によって文脈忠実性を高める新しい自己進化フレームワークである。
応答中の各文を独立した最適化単位として扱うことで、GenDiEは以前のアプローチの限界に効果的に対処する。
ASQA(ドメイン内のLFQA)とConFiQAデータセットの実験は、GenDiEが忠実さと正しさの両方で様々なベースラインを超えることを示した。
論文 参考訳(メタデータ) (2025-03-03T16:08:33Z) - Context-DPO: Aligning Language Models for Context-Faithfulness [80.62221491884353]
本研究では,大規模言語モデルの文脈信頼度を高めるためのアライメント手法を提案する。
ConFiQAから提供されたコンテキストの質問に対する忠実で頑健な応答を活用することで、Context-DPOは直接の選好最適化を通じてLLMを調整します。
大規模な実験により、私たちのContext-DPOは、一般的なオープンソースモデルで35%から280%の改善を達成し、コンテキスト忠実性を大幅に改善します。
論文 参考訳(メタデータ) (2024-12-18T04:08:18Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。