論文の概要: REFLEX: Self-Refining Explainable Fact-Checking via Disentangling Truth into Style and Substance
- arxiv url: http://arxiv.org/abs/2511.20233v1
- Date: Tue, 25 Nov 2025 12:06:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.441303
- Title: REFLEX: Self-Refining Explainable Fact-Checking via Disentangling Truth into Style and Substance
- Title(参考訳): REFLEX: 自己修復可能なFact-Checking
- Authors: Chuyi Kong, Gao Wei, Jing Ma, Hongzhan Lin, Zhiyuan Fan,
- Abstract要約: 本稿ではReason-Guided Fact-checking with Latent Explanations REFLEX paradigmを提案する。
バックボーンモデルの内部知識を活用して、検証精度と説明品質の両方を改善する、プラグアンドプレイの自己修正パラダイムである。
自己修正されたトレーニングサンプルはわずか465で、RELFEXは最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 17.54819454996899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prevalence of misinformation on social media threatens public trust, demanding automated fact-checking systems that provide accurate verdicts with interpretable explanations. However, existing large language model-based (LLM-based) approaches often rely heavily on external knowledge sources, introducing substantial latency and even hallucinations that undermine reliability, interpretability, and responsiveness, which is crucial for real-time use. To address these challenges, we propose REason-guided Fact-checking with Latent EXplanations REFLEX paradigm, a plug-and-play, self-refining paradigm that leverages the internal knowledge in backbone model to improve both verdict accuracy and explanation quality. REFLEX reformulates fact-checking as a role-play dialogue and jointly trains verdict prediction and explanation generation. It adaptively extracts contrastive activation pairs between the backbone model and its fine-tuned variant to construct steering vectors that disentangle truth into style and substance naturally. These activation-level signals guide inference and suppress noisy explanations, enabling more faithful and efficient reasoning. Experiments on real-world datasets show that REFLEX outperforms previous methods that steer toward a single truth direction and underscores the challenge traditional approaches face when handling the subtle, human-unknown truth in fact-checking tasks. Remarkably, with only 465 self-refined training samples, RELFEX achieves state-of-the-art performance. Furthermore, models trained with explanatory objectives can effectively guide those without them, yielding up to a 7.57% improvement, highlighting that internal explanation signals play a dual role in both interpreting and enhancing factual reasoning.
- Abstract(参考訳): ソーシャルメディアにおける誤報の頻度は、公衆の信頼を脅かし、解釈可能な説明を伴う正確な判断を提供する自動事実確認システムを要求する。
しかし、既存の大規模言語モデルベース(LLMベース)アプローチは、しばしば外部の知識ソースに大きく依存し、相当なレイテンシや、信頼性、解釈可能性、応答性を損なう幻覚さえもたらします。
これらの課題に対処するために,バックボーンモデルの内部知識を活用し,検証精度と説明品質を両立させるプラグイン・アンド・プレイ・セルフリファインティング・パラダイムであるReason-guided Fact-checking with Latent Explanations REFLEXパラダイムを提案する。
REFLEXはファクトチェックをロールプレイ対話として再構成し、予測予測と説明生成を共同で訓練する。
バックボーンモデルとその微調整された変種間の対照的なアクティベーション対を適応的に抽出し、真理を自然にスタイルと物質に分解するステアリングベクトルを構築する。
これらのアクティベーションレベル信号は推論を導き、ノイズのある説明を抑え、より忠実で効率的な推論を可能にする。
実世界のデータセットの実験では、REFLEXは単一の真理方向に向かって進む従来の手法よりも優れており、事実チェックタスクにおいて微妙で人間の知らない真実を扱う場合、従来のアプローチが直面する課題を強調している。
注目すべきは、465の自己修正トレーニングサンプルだけで、RELFEXは最先端のパフォーマンスを達成することだ。
さらに、説明目的で訓練されたモデルは、それらなしで効果的に導くことができ、7.57%の改善をもたらし、内部説明信号が事実推論の解釈と強化の両方において二重の役割を担っていることを強調している。
関連論文リスト
- Adaptive Residual-Update Steering for Low-Overhead Hallucination Mitigation in Large Vision Language Models [13.32858759983739]
LVLM(Large Vision-Language Models)は、しばしばオブジェクト幻覚に悩まされ、視覚入力と矛盾するテキストを生成する。
この問題を緩和するための既存の推論時間の介入は、難しいトレードオフをもたらします。
本稿では,LVLMを視覚的に生成するフレームワークであるResidual-Update Directed Decoding Regulation(RUDDER)を提案する。
論文 参考訳(メタデータ) (2025-11-13T13:29:38Z) - DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。
本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:37:11Z) - Reflect then Learn: Active Prompting for Information Extraction Guided by Introspective Confusion [41.79586757544166]
大規模言語モデル(LLM)は、少数ショット情報抽出(IE)において顕著な可能性を示す
従来の選択戦略は、しばしば、モデル誤認の重要な原因を見落としているため、情報的なガイダンスの提供に失敗する。
本稿では,イントロスペクティブ・混乱(introspective confusion)という原則に導かれる新しいアクティブ・プロンプト・フレームワークであるActive Prompting for Information extract(APIE)を紹介する。
論文 参考訳(メタデータ) (2025-08-10T02:27:41Z) - Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - TrendFact: A Benchmark for Explainable Hotspot Perception in Fact-Checking with Natural Language Explanation [9.221637941193606]
ホットスポット認識能力(HPA)とすべてのファクトチェックタスクを評価することができる最初のベンチマークであるTrendFactを紹介する。
TrendFactは、トレンドプラットフォームとプロのファクトチェックデータセットから得られた7,643のキュレートされたサンプルで構成されている。
また、動的エビデンス強化と影響スコアに基づく反復的自己回帰を統合した推論フレームワークであるFactISRを提案する。
論文 参考訳(メタデータ) (2024-10-19T15:25:19Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - A Controllable Model of Grounded Response Generation [122.7121624884747]
現在のエンドツーエンドのニューラルネットワークモデルは、応答生成プロセスにセマンティックコントロールを課す柔軟性を本質的に欠いている。
我々は制御可能な接地応答生成(CGRG)と呼ばれるフレームワークを提案する。
このフレームワークを用いることで、会話のようなRedditデータセットでトレーニングされた、新しいインダクティブアテンション機構を備えたトランスフォーマーベースのモデルが、強力な生成ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-05-01T21:22:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。