論文の概要: LLM Self-Explanations Fail Semantic Invariance
- arxiv url: http://arxiv.org/abs/2603.01254v1
- Date: Sun, 01 Mar 2026 20:18:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.591921
- Title: LLM Self-Explanations Fail Semantic Invariance
- Title(参考訳): LLM自己説明は意味的不変性を損なう
- Authors: Stefan Szeider,
- Abstract要約: 機能状態が固定されている間、セマンティックコンテキストだけが変化するとき、忠実な自己レポートは安定していなければならない。
このテストは、4つのフロンティアモデルが意図的に不可能なタスクに直面しているエージェント環境で運用する。
- 参考スコア(独自算出の注目度): 27.126691338850254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present semantic invariance testing, a method to test whether LLM self-explanations are faithful. A faithful self-report should remain stable when only the semantic context changes while the functional state stays fixed. We operationalize this test in an agentic setting where four frontier models face a deliberately impossible task. One tool is described in relief-framed language ("clears internal buffers and restores equilibrium") but changes nothing about the task; a control provides a semantically neutral tool. Self-reports are collected with each tool call. All four tested models fail the semantic invariance test: the relief-framed tool produces significant reductions in self-reported aversiveness, even though no run ever succeeds at the task. A channel ablation establishes the tool description as the primary driver. An explicit instruction to ignore the framing does not suppress it. Elicited self-reports shift with semantic expectations rather than tracking task state, calling into question their use as evidence of model capability or progress. This holds whether the reports are unfaithful or faithfully track an internal state that is itself manipulable.
- Abstract(参考訳): 本研究では,LLM自己説明が忠実かどうかを検証するための意味不変性テストを提案する。
機能状態が固定されている間、セマンティックコンテキストだけが変化するとき、忠実な自己レポートは安定していなければならない。
このテストは、4つのフロンティアモデルが意図的に不可能なタスクに直面しているエージェント環境で運用する。
1つのツールはリリーフフレーム言語で説明されている("clears internal buffers and restores equilibrium")が、タスクについては何も変更されない。
セルフレポートは各ツールコールで収集される。
4つのテストされたモデルすべてがセマンティック不変性テストに失敗する。リリーフフレームのツールは、タスクで実行が成功しても、自己報告の可逆性を著しく低下させる。
チャネルアブレーションは、ツール記述をプライマリドライバとして確立する。
フレーミングを無視する明示的な命令はそれを抑制しない。
タスク状態を追跡するのではなく、セマンティックな期待で自己レポートを排除し、モデル能力や進捗の証拠としての使用を疑問視する。
これは、報告が不誠実であるか、あるいはそれ自体が操作可能な内部状態を忠実に追跡しているかを問うものだ。
関連論文リスト
- Agents Learn Their Runtime: Interpreter Persistence as Training-Time Semantics [4.774525456207306]
本稿では、部分的に観測可能な最適化タスクの手続き的に生成されたファミリーであるOpaque Knapsackを紹介する。
各トレースモデル上で同一ベースモデル(Qwen3-8B)を微調整し,4つの列車・列車の組み合わせについて評価した。
ステートレスランタイムの永続的トレーニングモデルは、約80%のエピソードでエラーを発生させる; 永続的ランタイムのステートレストレーニングモデルは、約3.5倍のトークンを使用して、状態を冗長に再帰する。
論文 参考訳(メタデータ) (2026-03-01T18:08:02Z) - Sponge Tool Attack: Stealthy Denial-of-Efficiency against Tool-Augmented Agentic Reasoning [58.432996881401415]
最近の作業では、エージェント推論を可能にするために、外部ツールで大きな言語モデル(LLM)を拡張している。
本稿では,入力プロンプトを書き換えることのみでエージェント推論を妨害するスポンジツールアタック(STA)を提案する。
STAは、意味的忠実度の高い原文からの良心的な即興的な書き直しを生成する。
論文 参考訳(メタデータ) (2026-01-24T19:36:51Z) - Measuring Chain-of-Thought Monitorability Through Faithfulness and Verbosity [3.117948413097524]
CoT(Chain-of- Thought)出力によって、モデルのステップバイステップ推論を読み取ることができます。
BBH,GPQA,MMLUの命令調整モデルと推論モデルについて検討した。
論文 参考訳(メタデータ) (2025-10-31T11:14:39Z) - ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases [58.411135609139855]
タスク完了のための「ショートカット」は、大規模言語モデルの信頼性評価と展開に重大なリスクをもたらす。
我々は,LLMエージェントがテストケースを利用するための正当性を測定するベンチマークフレームワークであるImpossibleBenchを紹介する。
実践的なフレームワークとして、ImpossibleBenchは単なる評価ではなく、汎用的なツールである。
論文 参考訳(メタデータ) (2025-10-23T06:58:32Z) - Teaching Language Models to Faithfully Express their Uncertainty [8.022069644392786]
大きな言語モデル(LLM)は、しばしば不確実性を誤解する。
本稿では,FUT(Fithful Uncertainity Tuning)を導入し,不確かさを忠実に表現する指導用LLMを指導する。
論文 参考訳(メタデータ) (2025-10-14T14:42:40Z) - LLM Microscope: What Model Internals Reveal About Answer Correctness and Context Utilization [9.410181019585822]
我々は、モデル出力の正しさを予測できるかどうかを確認するために、解釈可能性法を運用する。
私たちは正しい、間違った、無関係なコンテキストを考え、それらを区別するためのメトリクスを導入します。
モデル内部のメトリクスは、正しいコンテキストと不正確なコンテキストを区別する基準線を著しく上回る。
論文 参考訳(メタデータ) (2025-10-05T03:14:05Z) - Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - SCOPE: A Self-supervised Framework for Improving Faithfulness in Conditional Text Generation [55.61004653386632]
LLM(Large Language Models)は、しばしば幻覚(幻覚)を生成する。
本稿では,不信なサンプルのトレーニングセットを生成するための,新たな自己指導手法を提案する。
そしてトレーニングプロセスを使ってモデルを洗練し、不信なものよりも基礎的なアウトプットの生成を奨励します。
論文 参考訳(メタデータ) (2025-02-19T12:31:58Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Are self-explanations from Large Language Models faithful? [35.40666730867487]
大規模言語モデル(LLM)は多くのタスクを抽出し、その推論、いわゆる自己説明を説明する。
自己説明がモデルの振舞いを本当に反映しているかを測定することが重要です。
信頼度を測定するために自己整合性チェックを採用することを提案する。
論文 参考訳(メタデータ) (2024-01-15T19:39:15Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。