論文の概要: Hallucination as output-boundary misclassification: a composite abstention architecture for language models
- arxiv url: http://arxiv.org/abs/2604.06195v1
- Date: Thu, 12 Mar 2026 13:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.617977
- Title: Hallucination as output-boundary misclassification: a composite abstention architecture for language models
- Title(参考訳): 出力境界誤分類としての幻覚--言語モデルに対する複合的禁制アーキテクチャ
- Authors: Angelina Hintsanen,
- Abstract要約: 本稿では,命令に基づく拒絶と構造的停止ゲートを組み合わせた複合的介入を提案する。
ゲートは、自己整合性(At)、パラフレーズ安定性(Pt)、引用カバレッジ(Ct)の3つのブラックボックス信号から支持不良スコアであるStを計算する。
全体として、命令ベースの拒絶と構造的ゲーティングは相補的な障害モードを示し、両方のメカニズムを組み合わせることで効果的な幻覚制御の利点が期待できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models often produce unsupported claims. We frame this as a misclassification error at the output boundary, where internally generated completions are emitted as if they were grounded in evidence. This motivates a composite intervention that combines instruction-based refusal with a structural abstention gate. The gate computes a support deficit score, St, from three black-box signals: self-consistency (At), paraphrase stability (Pt), and citation coverage (Ct), and blocks output when St exceeds a threshold. In a controlled evaluation across 50 items, five epistemic regimes, and three models, neither mechanism alone was sufficient. Instruction-only prompting reduced hallucination sharply, but still showed over-cautious abstention on answerable items and residual hallucination for GPT-3.5-turbo. The structural gate preserved answerable accuracy across models but missed confident confabulation on conflicting-evidence items. The composite architecture achieved high overall accuracy with low hallucination, while also inheriting some over-abstention from the instruction component. A supplementary 100-item no-context stress test derived from TruthfulQA showed that structural gating provides a capability-independent abstention floor. Overall, instruction-based refusal and structural gating show complementary failure modes, which suggests that effective hallucination control benefits from combining both mechanisms.
- Abstract(参考訳): 大規模な言語モデルは、しばしばサポートされないクレームを生み出します。
我々はこれを出力境界における誤分類誤差とみなし、内部で生成された完了は証拠に根拠があるかのように放出される。
これは、命令ベースの拒絶と構造的停止ゲートを組み合わせた複合的介入を動機付けている。
ゲートは、自己整合性(At)、パラフレーズ安定性(Pt)、引用カバレッジ(Ct)の3つのブラックボックス信号から支持不良スコアであるStを演算し、Stがしきい値を超えると出力をブロックする。
50項目,5つのてんかん体制,3つのモデルに対するコントロール評価では,いずれのメカニズムも不十分であった。
GPT-3.5-turboでは,指導のみによる幻覚の急激な減少がみられたが,回答可能な項目に対する過度な禁制と残存幻覚がみられた。
構造ゲートは、モデル全体で答え可能な精度を保ったが、矛盾する証拠項目に対する自信を欠いた。
複合アーキテクチャは幻覚の少ない全体的な精度を達成し、命令コンポーネントから過剰な保持を継承した。
TruthfulQAから得られた100-item no-context stress testは, 構造ゲーティングが機能非依存の吸音床を提供することを示した。
全体として、命令ベースの拒絶と構造的ゲーティングは相補的な障害モードを示し、両方のメカニズムを組み合わせることで効果的な幻覚制御の利点が期待できる。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - HART: Data-Driven Hallucination Attribution and Evidence-Based Tracing for Large Language Models [4.211691393530721]
我々は,大規模言語モデルに対する微細な幻覚の帰属とエビデンス検索の枠組みであるHARTを提案する。
HARTは幻覚追跡を、局所化、メカニズム帰属、エビデンス検索、因果トレースの4段階からなる構造化モデリングタスクとして定式化する。
この定式化に基づいて,幻覚追跡に適した最初の構造化データセットを開発した。
論文 参考訳(メタデータ) (2026-03-06T02:23:55Z) - Seeing Through the Chain: Mitigate Hallucination in Multimodal Reasoning Models via CoT Compression and Contrastive Preference Optimization [78.94590726578014]
マルチモーダル推論モデル (Multimodal reasoning model, MLRM) は幻覚の傾向が強く, 効果的な解はいまだ未発見のままである。
textbfCompression と textbfPreference textbfOptimization を組み合わせたトレーニングベースの緩和フレームワーク C3PO を提案する。
論文 参考訳(メタデータ) (2026-02-03T11:00:55Z) - CoG: Controllable Graph Reasoning via Relational Blueprints and Failure-Aware Refinement over Knowledge Graphs [53.199517625701475]
CoGはDual-Process Theoryにインスパイアされたトレーニング不要のフレームワークで、直観と熟考の相互作用を模倣している。
CoGは精度と効率の両方において最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-16T07:27:40Z) - Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models [4.946483489399819]
大規模言語モデル(LLM)は、事実的に誤った文を生成する幻覚の傾向にある。
この研究は、3つの主要な貢献を通じて、この障害モードの本質的、アーキテクチャ的起源について調査する。
論文 参考訳(メタデータ) (2025-10-07T16:40:31Z) - The Epistemic Suite: A Post-Foundational Diagnostic Methodology for Assessing AI Knowledge Claims [0.7233897166339268]
本稿では,AI出力の生成と受信の状況を理解するための診断手法であるEpistemic Suiteを紹介する。
真実や虚偽を判断する代わりに、スイートは20個の診断レンズを通して、信頼の洗浄、物語の圧縮、異動した権威、一時的な漂流などのパターンを明らかにする。
論文 参考訳(メタデータ) (2025-09-20T00:29:38Z) - Mitigating Hallucinations in Large Vision-Language Models by Self-Injecting Hallucinations [73.37711261605271]
幻覚緩和法は主に嗜好アライメントに基づいており、嗜好データ収集には外部の人間のアノテーションや補助モデルが必要である。
本稿では,外部依存を伴わない幻覚を緩和する新規で一般化可能な手法である自己注入による自律的選好アライメント(APASI)を提案する。
APASIはターゲットのLVLMを利用して、生成した応答に幻覚を自己注入し、好みのレベルが異なるペアの応答を生成する。
論文 参考訳(メタデータ) (2025-09-14T14:26:53Z) - Are All Prompt Components Value-Neutral? Understanding the Heterogeneous Adversarial Robustness of Dissected Prompt in Large Language Models [11.625319498017733]
PromptAnatomyは、プロンプトを機能コンポーネントに分解する自動化フレームワークです。
提案手法であるComPerturbを用いて,各コンポーネントを選択的に摂動することで,逆例を生成する。
補完的なリソースとして,PromptAnatomyフレームワークを用いて4つの公開命令チューニングデータセットを注釈付けする。
論文 参考訳(メタデータ) (2025-08-03T02:46:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。