論文の概要: COMPASS: Context-Modulated PID Attention Steering System for Hallucination Mitigation
- arxiv url: http://arxiv.org/abs/2511.14776v1
- Date: Wed, 05 Nov 2025 05:30:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-23 18:31:12.343863
- Title: COMPASS: Context-Modulated PID Attention Steering System for Hallucination Mitigation
- Title(参考訳): CompASS: 覚醒軽減のための文脈変調型PIDアテンションステアリングシステム
- Authors: Snigdha Pandya, Rohan Nagale, Kenji Sahay, Anna Lin, Shikhar Shiromani, Kevin Zhu, Dev Sunishchal,
- Abstract要約: モデルベースのフィードバックループをデコードに直接埋め込む軽量で解釈可能な制御フレームワークを導入する。
本研究では,PIDコントローラが動的にアテンションヘッドを変調して,リトレーニングやマルチパス復号を行うことなく,現実の一貫性を維持することを示す。
- 参考スコア(独自算出の注目度): 2.1521364454860525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often generate fluent but factually incorrect statements despite having access to relevant evidence, a failure mode rooted in how they allocate attention between contextual and parametric knowledge. Understanding and steering this internal behavior is key both for trustworthy deployment and for scientific interpretability of model mechanisms. We introduce COMPASS (Context-Modulated PID Attention Steering System), a lightweight, interpretable control framework that embeds a model-based feedback loop directly within decoding. COMPASS quantifies context reliance via a transparent metric, the Context Reliance Score (CRS), which serves as an online probe of how attention heads ground generation in evidence. Using this interpretable signal, a PID controller dynamically modulates attention heads to maintain factual consistency without retraining or multi-pass decoding. Across benchmarks (HotpotQA, XSum, HaluEval, RAGTruth), COMPASS consistently reduces contextual hallucination rates (2.8 to 5.8 percent absolute) while revealing how distinct attention heads contribute to evidence alignment. These results highlight feedback-driven interpretability as a pathway toward scientific understanding of LLM behavior.
- Abstract(参考訳): 大規模言語モデル (LLM) は、関連する証拠にアクセスできたにもかかわらず、しばしば流動的だが事実的に誤ったステートメントを生成するが、失敗モードは、文脈的知識とパラメトリックな知識の間の注意を割り当てる方法に根ざしている。
この内部の振る舞いを理解し、管理することは、信頼性の高いデプロイメントと、モデルメカニズムの科学的解釈可能性の両方において重要である。
CompASS(Context-Modulated PID Attention Steering System)は,モデルベースのフィードバックループをデコードに直接埋め込む軽量かつ解釈可能な制御フレームワークである。
CompASSは、透明なメトリクスであるコンテキスト信頼スコア(CRS)を通じてコンテキスト依存を定量化する。
この解釈可能な信号を用いて、PIDコントローラは注意ヘッドを動的に変調し、リトレーニングやマルチパス復号を行うことなく、現実の一貫性を維持する。
ベンチマーク(HotpotQA, XSum, HaluEval, RAGTruth)を通じて、CompASSはコンテキスト幻覚率(2.8から5.8%絶対)を一貫して下げると同時に、異なる注意ヘッドが証拠アライメントにどのように寄与するかを明らかにしている。
これらの結果は, LLM行動の科学的理解への道筋として, フィードバック駆動の解釈可能性を強調した。
関連論文リスト
- LLM Microscope: What Model Internals Reveal About Answer Correctness and Context Utilization [9.410181019585822]
我々は、モデル出力の正しさを予測できるかどうかを確認するために、解釈可能性法を運用する。
私たちは正しい、間違った、無関係なコンテキストを考え、それらを区別するためのメトリクスを導入します。
モデル内部のメトリクスは、正しいコンテキストと不正確なコンテキストを区別する基準線を著しく上回る。
論文 参考訳(メタデータ) (2025-10-05T03:14:05Z) - HAVE: Head-Adaptive Gating and ValuE Calibration for Hallucination Mitigation in Large Language Models [29.677280135028436]
LLM(Large Language Models)は、検索強化または長文生成において幻覚を生じることが多い。
HAVE(Head-Adaptive Gating and ValuE)は,頭部重みと生の注意重みに対処するパラメータフリーデコードフレームワークである。
HAVEは一貫して幻覚を減らし、DAGCDを含む強力なベースラインをわずかに上回っている。
論文 参考訳(メタデータ) (2025-09-08T12:06:09Z) - Inducing Faithfulness in Structured Reasoning via Counterfactual Sensitivity [6.908972852063454]
大規模言語モデルは、欠陥や無関係な推論トレースに依存しながら、正しい答えを生成することが多い。
本稿では,新しい学習目標であるtextbfCounterfactual Sensitivity Regularization (CSR)を紹介する。
CSRは、標準的な微調整とプロセスの監督に対する忠実度を最大70パーセント向上させる。
論文 参考訳(メタデータ) (2025-09-01T15:18:46Z) - Shaking to Reveal: Perturbation-Based Detection of LLM Hallucinations [25.18901449626428]
自己評価として知られる幻覚を検出するための広く採用されている戦略は、その答えの事実的正確さを推定するために、モデル自身の出力信頼度に依存する。
中間表現における摂動感度を解析することにより自己評価を改善する新しいフレームワークSSPを提案する。
SSPは幻覚検出ベンチマークの範囲で先行手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:44:28Z) - Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - Say It Another Way: Auditing LLMs with a User-Grounded Automated Paraphrasing Framework [17.91981142492207]
本稿では,ユーザ行動に根ざした制御されたフレーズを生成するフレームワークであるAUGMENTを紹介する。
AUGMENTは言語的に情報を得た規則を活用し、命令の順守、意味的類似性、リアリズムのチェックを通じて品質を強制する。
ケーススタディでは、制御されたパラフレーズは、制約のない変動の下で隠されたままの系統的な弱点を明らかにする。
論文 参考訳(メタデータ) (2025-05-06T14:17:30Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。
性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。
一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。