論文の概要: FaithLens: Detecting and Explaining Faithfulness Hallucination
- arxiv url: http://arxiv.org/abs/2512.20182v1
- Date: Tue, 23 Dec 2025 09:20:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.813608
- Title: FaithLens: Detecting and Explaining Faithfulness Hallucination
- Title(参考訳): FaithLens:Fithfulness Hallucinationの検出と説明
- Authors: Shuzheng Si, Qingyi Wang, Haozhe Zhao, Yuzhuo Bai, Guanqiao Chen, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun,
- Abstract要約: 本稿では,低コストで効果的な幻覚検出モデルであるFaithLensを紹介する。
ラベルの正確性、説明品質、データの多様性を保証するために、明確に定義されたデータフィルタリング戦略を適用します。
FaithLensは高品質な説明を生み出し、信頼性、効率、有効性の明確なバランスを提供する。
- 参考スコア(独自算出の注目度): 63.905100627300925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing whether outputs from large language models (LLMs) contain faithfulness hallucination is crucial for real-world applications, e.g., retrieval-augmented generation and summarization. In this paper, we introduce FaithLens, a cost-efficient and effective faithfulness hallucination detection model that can jointly provide binary predictions and corresponding explanations to improve trustworthiness. To achieve this, we first synthesize training data with explanations via advanced LLMs and apply a well-defined data filtering strategy to ensure label correctness, explanation quality, and data diversity. Subsequently, we fine-tune the model on these well-curated training data as a cold start and further optimize it with rule-based reinforcement learning, using rewards for both prediction correctness and explanation quality. Results on 12 diverse tasks show that the 8B-parameter FaithLens outperforms advanced models such as GPT-4.1 and o3. Also, FaithLens can produce high-quality explanations, delivering a distinctive balance of trustworthiness, efficiency, and effectiveness.
- Abstract(参考訳): 大規模言語モデル(LLM)からの出力が忠実な幻覚を含むかどうかを認識することは、例えば、検索拡張生成や要約など、現実世界のアプリケーションには不可欠である。
本稿では、二分予測とそれに対応する説明を共同で提供し、信頼性を向上させるための費用効率が高く効果的な忠実度幻覚検出モデルであるFaithLensを紹介する。
そこで我々はまず,高度なLCMによる説明付きトレーニングデータを合成し,ラベルの正確性,説明品質,データの多様性を保証するために,明確に定義されたデータフィルタリング戦略を適用した。
その後、これらの訓練データを冷間開始として微調整し、予測精度と説明品質の両面での報酬を用いてルールベース強化学習により最適化する。
12の多様なタスクの結果、GPT-4.1やo3のような先進的なモデルよりも8BパラメータのFaithLensの方が優れていた。
また、FaithLensは高品質な説明を作成でき、信頼性、効率、有効性の明確なバランスを提供する。
関連論文リスト
- Reasoning Models Hallucinate More: Factuality-Aware Reinforcement Learning for Large Reasoning Models [83.24079543652253]
大規模言語モデル(LLM)は、強化学習(RL)最適化を通じて、推論タスクにおいて著しく進歩している。
しかし、推論指向RL微調整は幻覚の頻度を著しく高めている。
本稿では,明示的事実性検証を取り入れた革新的なRL微調整アルゴリズムであるFSPOを提案する。
論文 参考訳(メタデータ) (2025-05-30T14:23:32Z) - Teaching Large Language Models to Maintain Contextual Faithfulness via Synthetic Tasks and Reinforcement Learning [80.27561080938747]
CANOEは、人間のアノテーションを使わずに、下流のさまざまなタスクにまたがる大きな言語モデルの忠実性の幻覚を減らすためのフレームワークである。
Dual-GRPOはルールベースの強化学習手法であり、合成された短値QAデータから得られる3つのルールベースの報酬を含む。
実験の結果、CANOEは11のタスクにまたがるLLMの忠実さを大幅に改善し、最も進歩したLLMよりも優れていた。
論文 参考訳(メタデータ) (2025-05-22T10:10:07Z) - Improving Contextual Faithfulness of Large Language Models via Retrieval Heads-Induced Optimization [35.269343563526675]
我々は,大規模言語モデルに忠実な世代と不誠実な世代を明確に区別するためのフレームワークであるRHIOを提案する。
RHIOは、検索ヘッドを選択的にマスキングすることで、現実的なモデル固有のエラーをシミュレートする不誠実なサンプルを最初に強化する。
これらのサンプルは共同トレーニングに組み込まれ、制御トークンに条件付けられた忠実なものから不誠実な出力を区別することができる。
論文 参考訳(メタデータ) (2025-01-23T11:23:25Z) - Synchronous Faithfulness Monitoring for Trustworthy Retrieval-Augmented Generation [96.78845113346809]
Retrieval-augmented Language Model (RALMs) は、知識集約型タスクにおいて、高い性能と幅広い適用性を示している。
本稿では,非偽文の検出に微細な復号力学を利用する軽量モニタであるSynCheckを提案する。
また、長文検索拡張生成のためのビームサーチによって導かれる忠実度指向の復号アルゴリズムであるFODを導入する。
論文 参考訳(メタデータ) (2024-06-19T16:42:57Z) - More RLHF, More Trust? On The Impact of Preference Alignment On Trustworthiness [24.843692458375436]
本研究では,5つの信頼性分野において,汎用的嗜好データに整合したモデルがどのように機能するかを検討する。
ヒトの嗜好に対するRLHFは、自動的に信頼性を保証せず、しばしば逆効果が観察される。
本稿では,RLHF設定に効率的な影響関数に基づくデータ帰属手法を適用し,個々の信頼性ベンチマークに対する微調整データの影響をよりよく理解するために提案する。
論文 参考訳(メタデータ) (2024-04-29T17:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。