論文の概要: The Geometry of Self-Verification in a Task-Specific Reasoning Model
- arxiv url: http://arxiv.org/abs/2504.14379v1
- Date: Sat, 19 Apr 2025 18:40:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 00:58:59.699671
- Title: The Geometry of Self-Verification in a Task-Specific Reasoning Model
- Title(参考訳): タスク特化推論モデルにおける自己検証の幾何学
- Authors: Andrew Lee, Lihao Sun, Chris Wendler, Fernanda Viégas, Martin Wattenberg,
- Abstract要約: 我々はCountDownタスクでDeepSeek R1のレシピを使ってモデルをトレーニングする。
モデルがどのように出力を検証するかをリバースエンジニアリングするために、トップダウンとボトムアップの分析を行います。
- 参考スコア(独自算出の注目度): 45.669264589017665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How do reasoning models verify their own answers? We study this question by training a model using DeepSeek R1's recipe on the CountDown task. We leverage the fact that preference tuning leads to mode collapse, resulting in a model that always produces highly structured and easily parse-able chain-of-thought sequences. With this setup, we do a top-down and bottom-up analysis to reverse-engineer how the model verifies its outputs. Our top-down analysis reveals Gated Linear Unit (GLU) weights encoding verification-related tokens, such as ``success'' or ``incorrect'', which activate according to the correctness of the model's reasoning steps. Our bottom-up analysis reveals that ``previous-token heads'' are mainly responsible for model verification. Our analyses meet in the middle: drawing inspiration from inter-layer communication channels, we use the identified GLU vectors to localize as few as three attention heads that can disable model verification, pointing to a necessary component of a potentially larger verification circuit.
- Abstract(参考訳): 推論モデルは、どのように自身の回答を検証するのか?
本研究では、DeepSeek R1のレシピをCountDownタスクでトレーニングすることで、この問題を考察する。
我々は、優先順位調整がモード崩壊につながるという事実を活用し、常に高度に構造化され、容易に解析可能なチェーン・オブ・プリート・シーケンスを生成するモデルを生み出す。
このセットアップでは、モデルがどのように出力を検証するかをリバースエンジニアリングするために、トップダウンとボトムアップの分析を行います。
我々のトップダウン分析では、モデルの推論ステップの正しさに応じて起動する ``success'' や ``incorrect'' などの検証関連トークンを符号化する Gated Linear Unit (GLU) 重みが明らかにされている。
私たちのボトムアップ分析では、'previous-token head'が主にモデルの検証に責任があることが分かりました。
層間通信チャネルからインスピレーションを得て、同定されたGLUベクトルを用いて、モデル検証を無効にできる3つの注意ヘッドをローカライズする。
関連論文リスト
- CAPE: A CLIP-Aware Pointing Ensemble of Complementary Heatmap Cues for Embodied Reference Understanding [55.33317649771575]
身体的参照理解(Embodied Reference Understanding)は、シーンの人物が指し示すジェスチャーと言語の両方を通して参照しているオブジェクトを予測する。
本稿では,2重モデルフレームワークを提案し,一方のモデルが頭指先方向から学習し,他方のモデルが手指先方向から学習する。
CLIP機能に基づいたハイブリッドアンサンブルを行うCLIP-Aware Pointing Ensembleモジュールを提案する。
論文 参考訳(メタデータ) (2025-07-29T15:00:21Z) - Adversarial Manipulation of Reasoning Models using Internal Representations [1.024113475677323]
モデルが拒否するか否かを予測するCoTトークン生成において,活性化空間における線形方向を同定する。
我々は、CoTトークンのアクティベーションのみに介入することで最終的な出力を制御することができ、この方向をプロンプトベースの攻撃に組み込むことで、成功率を向上させることを示す。
以上の結果から,このチェーン・オブ・シンドローム自体が,推論モデルにおける敵対的操作の新たなターゲットとなる可能性が示唆された。
論文 参考訳(メタデータ) (2025-07-03T20:51:32Z) - Incentivizing LLMs to Self-Verify Their Answers [20.2584779107763]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を示している。
自明な回答を自己検証するために LLM をインセンティブとするフレームワークを提案する。
我々はQwen2.5-Math-7BとDeepSeek-R1-Distill-Qwen-1.5Bに基づいて自己検証モデルを訓練する。
論文 参考訳(メタデータ) (2025-06-02T06:54:29Z) - Mitigating Deceptive Alignment via Self-Monitoring [15.365589693661823]
我々は,CoT Monitor+という,自己監視をチェーン・オブ・シントプロセス自体に組み込むフレームワークを開発した。
生成中、モデルは(i)通常の推論ステップを生成し、(ii)不整合戦略のフラグと抑制のために訓練された内部自己評価信号を生成する。
この信号は強化学習の補助的な報酬として使われ、正直な推論に報いるフィードバックループを作成し、隠れた目標を阻止する。
論文 参考訳(メタデータ) (2025-05-24T17:41:47Z) - Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。
我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文 参考訳(メタデータ) (2025-02-21T00:48:32Z) - STRIVE: Structured Reasoning for Self-Improvement in Claim Verification [21.00145637520767]
自己改善検証のための構造化推論を提案する。
本稿では,Crim Decomposition,Entity Analysis,Evidence Grounding Verificationを用いた構造化推論設計を提案する。
その後、すべてのトレーニング例に対して推論連鎖を生成するために適用され、その後の自己改善トレーニングのために正確で構造的に健全なもののみを選択する。
論文 参考訳(メタデータ) (2025-02-17T16:07:07Z) - Attuned to Change: Causal Fine-Tuning under Latent-Confounded Shifts [32.989526411946606]
遅れた構築されたシフトに適応することは、現代AIにおける中核的な課題である。
1つの実用的障害モードは、構築されたデータに基づいて訓練済みの基礎モデルを微調整するときに発生する。
我々は、因果微調整を識別問題として捉え、入力を低レベルなスプリアス特徴に分解する明示的な因果モデルを示す。
論文 参考訳(メタデータ) (2024-10-18T11:06:23Z) - AutoPSV: Automated Process-Supervised Verifier [10.283965168399158]
textbf Automated textbfProcess-textbf Supervised textbfVerifier (textbftextscAutoPSV)
textscAutoPSVは、最終回答の正しさに関する検証モデルをトレーニングすることから始まる。
最終回答の正しさを訓練した検証モデルにより得られたステップレベルの信頼度変化が、推論ステップにおける誤りを効果的に識別できることを実験的に検証した。
論文 参考訳(メタデータ) (2024-05-27T03:44:24Z) - Explaining Pre-Trained Language Models with Attribution Scores: An
Analysis in Low-Resource Settings [32.03184402316848]
我々は,素早いモデルから抽出した帰属スコアの妥当性と忠実度を分析した。
プロンプトパラダイムを用いることで、低リソース環境下でモデルを微調整するよりも、より妥当な説明が得られます。
論文 参考訳(メタデータ) (2024-03-08T14:14:37Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - GrOVe: Ownership Verification of Graph Neural Networks using Embeddings [13.28269672097063]
グラフニューラルネットワーク(GNN)は、大規模グラフ構造化データから推論をモデル化および描画するための最先端のアプローチとして登場した。
以前の研究によると、GNNは抽出攻撃をモデル化する傾向がある。
GrOVeは最先端のGNNモデルフィンガープリント方式である。
論文 参考訳(メタデータ) (2023-04-17T19:06:56Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z) - Interpretations Steered Network Pruning via Amortized Inferred Saliency
Maps [85.49020931411825]
限られたリソースを持つエッジデバイスにこれらのモデルをデプロイするには、畳み込みニューラルネットワーク(CNN)圧縮が不可欠である。
本稿では,新しい視点からチャネルプルーニング問題に対処するために,モデルの解釈を活用して,プルーニング過程を解析する手法を提案する。
本研究では,実時間スムーズなスムーズなスムーズなスムーズなマスク予測を行うセレクタモデルを導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2022-09-07T01:12:11Z) - Certifiable 3D Object Pose Estimation: Foundations, Learning Models, and
Self-Training [23.802602957611676]
証明可能なオブジェクトのポーズ推定の問題を考えると、オブジェクトの部分的な点クラウドが与えられた場合、その目標は、その結果の見積もりに対して正当性を示す証明書を提供することである。
セマンティックキーポイントに基づくポーズ推定モデルであるC-3POを提案する。
論文 参考訳(メタデータ) (2022-06-22T17:06:39Z) - Entailment Tree Explanations via Iterative Retrieval-Generation Reasoner [56.08919422452905]
我々はIRGR(Iterative Retrieval-Generation Reasoner)と呼ばれるアーキテクチャを提案する。
本モデルでは,テキストの前提からステップバイステップの説明を体系的に生成することにより,与えられた仮説を説明することができる。
前提条件の検索と細分化木の生成に関する既存のベンチマークを上回り、全体の正しさはおよそ300%向上した。
論文 参考訳(メタデータ) (2022-05-18T21:52:11Z) - Probing Model Signal-Awareness via Prediction-Preserving Input
Minimization [67.62847721118142]
モデルが正しい脆弱性信号を捕捉して予測する能力を評価する。
SAR(Signal-Aware Recall)と呼ばれる新しい指標を用いて,モデルの信号認識を計測する。
その結果,90年代以降のリコールから60年代以降のリコールは,新たな指標で大幅に減少した。
論文 参考訳(メタデータ) (2020-11-25T20:05:23Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。