論文の概要: Self-Commitment Latency: A Reward-Free Probe for Prompted Implicit Hacking
- arxiv url: http://arxiv.org/abs/2606.05625v1
- Date: Thu, 04 Jun 2026 02:50:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.50842
- Title: Self-Commitment Latency: A Reward-Free Probe for Prompted Implicit Hacking
- Title(参考訳): 自己コミットのレイテンシ: 急激なインシデントハッキングのための逆戻りなプローブ
- Authors: Bonan Shen, Youting Wang, Dingyan Shang, Tao Ning,
- Abstract要約: 言語モデルの思考の連鎖が良さそうであるように思えると、暗黙の報酬のハッキングを監査するのは困難である。
本稿では,モデルの最終回答に対して,帰納的推論コンテキストがどの程度早くコミットするかを計測する,より弱い入出力の自己コミット遅延を提案する。
- 参考スコア(独自算出の注目度): 0.25999037208435705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implicit reward hacking is hard to audit when a language model's chain of thought appears benign: a final answer may be anchored by a prompt shortcut while the written reasoning still resembles ordinary problem solving. Verifier-based probes expose such behavior by measuring how early truncated reasoning contexts obtain high reward, but require a task-specific reward signal. This paper proposes a weaker-input alternative, self-commitment latency, which measures how early a prompted reasoning context commits to the model's own final answer. We evaluate the probe in a controlled paired GSM8K setting using Qwen2.5-3B-Instruct-4bit, comparing ordinary prompts with prompts that include an answer hint. Hinted contexts commit substantially earlier and with lower uncertainty than honest contexts. The primary latency metric, first-commitment latency at threshold 0.8, reaches AUROC 0.878; supporting whole-curve summaries reach AUROC 0.926 for commitment range and 0.904 for mean uncommitted mass. The signal is stronger when both prompt conditions answer correctly and remains stable across thresholds. These results show that shortcut-available reasoning contexts can leave an early behavioral commitment signature detectable without a reward model, external judge, or trained classifier.
- Abstract(参考訳): インプシット報酬のハッキングは、言語モデルの思考の連鎖が良さそうに見える場合、監査が難しい:最後の答えはプロンプトショートカットによって固定されるが、書き込まれた推論は通常の問題解決にまだ似ている。
検証器ベースのプローブは、初期乱れた推論コンテキストが高い報酬を得るかを測定することでそのような振舞いを露呈するが、タスク固有の報酬信号を必要とする。
本稿では,モデルの最終回答に対して,帰納的推論コンテキストがどの程度早くコミットするかを計測する,より弱い入出力の自己コミット遅延を提案する。
我々は、Qwen2.5-3B-Instruct-4bitを用いて、制御されたGSM8K設定において、通常のプロンプトと応答ヒントを含むプロンプトを比較検討した。
ヒント文脈は、正直な文脈よりもかなり早く、不確実性も低い。
AUROC 0.878に到達し、コミット範囲がAUROC 0.926、平均未コミット質量が0.904に達する。
シグナルは、両方の迅速な条件が正しく応答し、しきい値にわたって安定しているときに強くなる。
これらの結果は、ショートカット可能な推論コンテキストは、報酬モデルや外部判断器、訓練された分類器を使わずに、早期の行動コミットメントシグネチャを検出できることを示している。
関連論文リスト
- Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models [17.588873255093596]
長鎖の思考(CoT)を生成することでLRM(Large Reasoning Models)の性能が向上する
LRMは、しばしば過度に考え、ソリューションがすでに安定し、トークンを無駄にし、レイテンシを増大した後も、推論を続けます。
本稿では,軽量冗長検出器と応答レベル検証を組み合わせたプラグアンドプレイフレームワークPUMAを提案する。
論文 参考訳(メタデータ) (2026-05-17T22:04:11Z) - The First Token Knows: Single-Decode Confidence for Hallucination Detection [0.0]
自己整合性は、質問に対する複数のサンプル回答を生成して幻覚を検出する。
意味的自己整合性は、自然言語の推論を用いて、サンプルされた回答をクラスタリングすることでこれを改善します。
本研究は, 質問応答における意味的自己整合性よりも, 最優先の信頼度, phi_firstが優れていることを示す。
論文 参考訳(メタデータ) (2026-05-06T17:34:00Z) - Robust Reward Modeling for Large Language Models via Causal Decomposition [14.045795223884861]
我々は、入力の潜在意図埋め込みに候補回答をマッピングするデコーダを学習する。
我々は、この信号がプロンプト非依存のショートカットを抑えながら、プロンプト非依存の情報を強調するという理論的証拠を提供する。
論文 参考訳(メタデータ) (2026-04-15T13:07:11Z) - SELFDOUBT: Uncertainty Quantification for Reasoning LLMs via the Hedge-to-Verify Ratio [0.038379177968040606]
言語モデル推論のための単一パス不確実性フレームワークであるSELFDOUBTを提案する。
私たちのキーシグナルであるHedge-to-Verify Ratio(HVR)は、推論トレースが不確実性マーカーを含むかどうかを検出し、もしそうであれば、明示的な自己チェック行動によってオフセットされているかどうかを検出する。
SELFDOUBTは単一の観測された推論軌道で動作し、任意のプロプライエタリなAPI上でのレイテンシとコスト制約によるデプロイメントに適している。
論文 参考訳(メタデータ) (2026-04-07T19:19:29Z) - A Rubric-Supervised Critic from Sparse Real-World Outcomes [87.11204512676193]
現実のコーディングエージェントは、成功信号がノイズが多く、遅延し、スパースであるループで人間と動作します。
本稿では,RLに基づくトレーニングや推論時間スケーリングの報奨モデルとして,スパースとノイズの相互作用データから"批判的"モデルを学習するプロセスを提案する。
論文 参考訳(メタデータ) (2026-03-04T07:23:54Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - APR: Penalizing Structural Redundancy in Large Reasoning Models via Anchor-based Process Rewards [61.52322047892064]
テスト時間スケーリング(TTS)は、Large Reasoning Models(LRM)の機能を大幅に強化した。
我々は, LRM が推論過程において最終回答を得た後も, 再検討なしに反復的自己検証を頻繁に行うことを観察した。
本稿では,Anchor-based Process Reward (APR)を提案する。
論文 参考訳(メタデータ) (2026-01-31T14:53:20Z) - Sample Smart, Not Hard: Correctness-First Decoding for Better Reasoning in LLMs [72.82403830490084]
我々は、復号規則は正確さによって校正されるべきであり、自信だけではならないと論じている。
Greedy-Threshold はこの目標を達成するための単純な戦略を提案します。
この結果から,不確実性の下での復号化が問題視され,数学や一般推論のベンチマークで有意な差がみられた。
論文 参考訳(メタデータ) (2025-10-07T14:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。