論文の概要: The Point of No Return: Counterfactual Localization of Deceptive Commitment in Language-Model Reasoning
- arxiv url: http://arxiv.org/abs/2605.17113v1
- Date: Sat, 16 May 2026 18:36:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.613478
- Title: The Point of No Return: Counterfactual Localization of Deceptive Commitment in Language-Model Reasoning
- Title(参考訳): No Returnのポイント:言語モデル推論における知覚的コミットの非現実的局所化
- Authors: Scott Merrill, Shashank Srivastava,
- Abstract要約: 本稿では,言語モデルにおける偽装の偽装化について紹介する。
詐欺は決して誘発されないが、戦略的インセンティブから生じる5つの環境を構築します。
得られたコーパスは4つの推論モデルで$sim$1.46Mの文をローカライズする。
- 参考スコア(独自算出の注目度): 9.827138852806305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing deception datasets label completed outputs as honest or deceptive, treating deception as a property of the final response rather than a function of the model's reasoning trace. This obscures a more fundamental question: when does a language model become committed to deception? We introduce counterfactual localization: for each sentence prefix in a reasoning trace, we fix the prefix, resample continuations, and estimate the probability of a deceptive outcome. To scale this, we construct five environments (spanning strategic bluffing, maze guidance, financial advice, used-car sales, and offer negotiation) in which deception is never prompted but emerges from strategic incentives and labels follow mechanically from environment state rather than subjective human judgment. The resulting corpus localizes $\sim$1.46M sentences across four reasoning models, drawn from over 94.1M sampled continuations, 91.5B generated tokens, and over 100K scenarios. Sentence-level human evaluation confirms that detected commitment points correspond to interpretable shifts in decision state. Using this resource, we show that lexical cues for commitment prediction transfer poorly across environments, whereas attention-based transition features generalize out of distribution, suggesting that deceptive commitment is reflected in reusable changes in reasoning dynamics rather than surface form. We further identify compact attention-head sets (under 10% of heads) that, selected on one environment, causally suppress deceptive commitment across held-out environments. We release the corpus as a substrate for studying deception, and more broadly commitment, in language-model reasoning.
- Abstract(参考訳): 既存の偽装データセットは、完了した出力を正直または偽装であるとラベル付けし、偽装をモデルの推論トレースの関数ではなく最終応答の特性として扱う。
言語モデルはいつ、欺くことにコミットされるのか?
我々は,各文の接頭辞を推論トレースに導入し,その接頭辞を固定し,継続をサンプリングし,偽りの結果の確率を推定する。
この規模を拡大するために、我々は、虚偽を起こさないが、戦略的インセンティブやラベルが、主観的な人的判断よりも、環境状態から機械的に追従する5つの環境(戦略ブラッフィング、迷路指導、金融アドバイス、中古車販売、交渉提案)を構築した。
得られたコーパスは4つの推論モデルにまたがる$\sim$1.46Mの文をローカライズし、94.1M以上のサンプルの継続、91.5Bの生成されたトークン、100K以上のシナリオから引き出された。
文レベルの人間評価は、検出されたコミットメントポイントが決定状態の解釈可能なシフトに対応することを確認する。
この資源を用いて, 環境間でのコミットメント予測が不十分な場合の語彙的手がかりを示す一方で, 注意に基づく遷移特徴は分布から一般化し, 表面形状ではなく, 推論力学における再利用可能な変化に, 認識的コミットメントが反映されることが示唆された。
さらに、1つの環境上で選択されたコンパクトな注目ヘッドセット(頭部の10%以下)を同定し、ホールドアウト環境全体にわたって侵害的コミットメントを因果的に抑制する。
我々は, 言語モデル推論において, 詐欺研究の基盤としてコーパスを公開し, より広範にコミットメントする。
関連論文リスト
- Agent-BRACE: Decoupling Beliefs from Actions in Long-Horizon Tasks via Verbalized State Uncertainty [70.43119366710778]
本稿では,Agens-BRACE: Agent Belief state Representation by Abstraction and Confidence Estimationを紹介する。
LLMエージェントを信頼状態モデルと政策モデルに分離し、強化学習を通じて協調的に最適化する手法である。
長期にわたる部分的に観察可能な言語環境において、平均して+14.5%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2026-05-12T02:37:04Z) - Context as Prior: Bayesian-Inspired Intent Inference for Non-Speaking Agents with a Household Cat Testbed [19.660694706739353]
マルチモーダルな意図推論のための確率的フレームワークであるCatSignalを提案する。
我々は、この定式化を、非言語エージェントにおける意図推論のための概念実証の焦点として、家庭内猫設定でインスタンス化する。
論文 参考訳(メタデータ) (2026-04-30T05:32:13Z) - Early Decisions Matter: Proximity Bias and Initial Trajectory Shaping in Non-Autoregressive Diffusion Language Models [54.16797570104461]
拡散ベースの言語モデル (dLLMs) は自己回帰型言語モデルに代わる有望な代替品として登場した。
時間軸に沿った推論ダイナミクスを系統的に解析し, dLLMの非自己回帰復号化について検討した。
論文 参考訳(メタデータ) (2026-04-12T10:26:41Z) - SPOT: Span-level Pause-of-Thought for Efficient and Interpretable Latent Reasoning in Large Language Models [15.95627037350657]
CoT (Explicit Chain-of-Thought) 計算はトークンレベルのトレースを内部化することによって高い推論コストを発生させる。
固定応答テンプレートを強制せずに、明示的なCoTをコンパクトなポーズトークンに圧縮するフレキシブルなフレームワークであるSPOTを提案する。
推論ベンチマークの実験では、SPOTは生成したトークンを37.5%削減しながら、平均2.3ポイントの精度を向上している。
論文 参考訳(メタデータ) (2026-03-06T12:34:27Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - What if Deception Cannot be Detected? A Cross-Linguistic Study on the Limits of Deception Detection from Text [10.912953196817554]
著者の主張と真実の信念の相違として, 虚偽を定め, 信念に基づく虚偽の枠組みを導入する。
我々は3つのコーパスを構築し、総称してDeFaBelとよばれる。
これらのコーパスを用いて、一般的に報告されている偽装の言語的手がかりを評価する。
論文 参考訳(メタデータ) (2025-05-19T14:12:05Z) - An Analysis and Mitigation of the Reversal Curse [70.13419502543915]
最近の研究は、大型言語モデル(LLM)で注目すべき現象を観測している。
逆の呪文は、$a$と$b$の2つのエンティティを扱う場合、LLMは$aRb$,'という形式でシーケンスを処理するのに優れるが、$bR-1a$'を処理する場合の課題に直面することである。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。