論文の概要: The Geometry of Self-Verification in a Task-Specific Reasoning Model
- arxiv url: http://arxiv.org/abs/2504.14379v1
- Date: Sat, 19 Apr 2025 18:40:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 00:58:59.699671
- Title: The Geometry of Self-Verification in a Task-Specific Reasoning Model
- Title(参考訳): タスク特化推論モデルにおける自己検証の幾何学
- Authors: Andrew Lee, Lihao Sun, Chris Wendler, Fernanda Viégas, Martin Wattenberg,
- Abstract要約: 我々はCountDownタスクでDeepSeek R1のレシピを使ってモデルをトレーニングする。
モデルがどのように出力を検証するかをリバースエンジニアリングするために、トップダウンとボトムアップの分析を行います。
- 参考スコア(独自算出の注目度): 45.669264589017665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How do reasoning models verify their own answers? We study this question by training a model using DeepSeek R1's recipe on the CountDown task. We leverage the fact that preference tuning leads to mode collapse, resulting in a model that always produces highly structured and easily parse-able chain-of-thought sequences. With this setup, we do a top-down and bottom-up analysis to reverse-engineer how the model verifies its outputs. Our top-down analysis reveals Gated Linear Unit (GLU) weights encoding verification-related tokens, such as ``success'' or ``incorrect'', which activate according to the correctness of the model's reasoning steps. Our bottom-up analysis reveals that ``previous-token heads'' are mainly responsible for model verification. Our analyses meet in the middle: drawing inspiration from inter-layer communication channels, we use the identified GLU vectors to localize as few as three attention heads that can disable model verification, pointing to a necessary component of a potentially larger verification circuit.
- Abstract(参考訳): 推論モデルは、どのように自身の回答を検証するのか?
本研究では、DeepSeek R1のレシピをCountDownタスクでトレーニングすることで、この問題を考察する。
我々は、優先順位調整がモード崩壊につながるという事実を活用し、常に高度に構造化され、容易に解析可能なチェーン・オブ・プリート・シーケンスを生成するモデルを生み出す。
このセットアップでは、モデルがどのように出力を検証するかをリバースエンジニアリングするために、トップダウンとボトムアップの分析を行います。
我々のトップダウン分析では、モデルの推論ステップの正しさに応じて起動する ``success'' や ``incorrect'' などの検証関連トークンを符号化する Gated Linear Unit (GLU) 重みが明らかにされている。
私たちのボトムアップ分析では、'previous-token head'が主にモデルの検証に責任があることが分かりました。
層間通信チャネルからインスピレーションを得て、同定されたGLUベクトルを用いて、モデル検証を無効にできる3つの注意ヘッドをローカライズする。
関連論文リスト
- Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。
我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文 参考訳(メタデータ) (2025-02-21T00:48:32Z) - STRIVE: Structured Reasoning for Self-Improvement in Claim Verification [21.00145637520767]
自己改善検証のための構造化推論を提案する。
本稿では,Crim Decomposition,Entity Analysis,Evidence Grounding Verificationを用いた構造化推論設計を提案する。
その後、すべてのトレーニング例に対して推論連鎖を生成するために適用され、その後の自己改善トレーニングのために正確で構造的に健全なもののみを選択する。
論文 参考訳(メタデータ) (2025-02-17T16:07:07Z) - AutoPSV: Automated Process-Supervised Verifier [10.283965168399158]
textbf Automated textbfProcess-textbf Supervised textbfVerifier (textbftextscAutoPSV)
textscAutoPSVは、最終回答の正しさに関する検証モデルをトレーニングすることから始まる。
最終回答の正しさを訓練した検証モデルにより得られたステップレベルの信頼度変化が、推論ステップにおける誤りを効果的に識別できることを実験的に検証した。
論文 参考訳(メタデータ) (2024-05-27T03:44:24Z) - Explaining Pre-Trained Language Models with Attribution Scores: An
Analysis in Low-Resource Settings [32.03184402316848]
我々は,素早いモデルから抽出した帰属スコアの妥当性と忠実度を分析した。
プロンプトパラダイムを用いることで、低リソース環境下でモデルを微調整するよりも、より妥当な説明が得られます。
論文 参考訳(メタデータ) (2024-03-08T14:14:37Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - GrOVe: Ownership Verification of Graph Neural Networks using Embeddings [13.28269672097063]
グラフニューラルネットワーク(GNN)は、大規模グラフ構造化データから推論をモデル化および描画するための最先端のアプローチとして登場した。
以前の研究によると、GNNは抽出攻撃をモデル化する傾向がある。
GrOVeは最先端のGNNモデルフィンガープリント方式である。
論文 参考訳(メタデータ) (2023-04-17T19:06:56Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z) - Interpretations Steered Network Pruning via Amortized Inferred Saliency
Maps [85.49020931411825]
限られたリソースを持つエッジデバイスにこれらのモデルをデプロイするには、畳み込みニューラルネットワーク(CNN)圧縮が不可欠である。
本稿では,新しい視点からチャネルプルーニング問題に対処するために,モデルの解釈を活用して,プルーニング過程を解析する手法を提案する。
本研究では,実時間スムーズなスムーズなスムーズなスムーズなマスク予測を行うセレクタモデルを導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2022-09-07T01:12:11Z) - Certifiable 3D Object Pose Estimation: Foundations, Learning Models, and
Self-Training [23.802602957611676]
証明可能なオブジェクトのポーズ推定の問題を考えると、オブジェクトの部分的な点クラウドが与えられた場合、その目標は、その結果の見積もりに対して正当性を示す証明書を提供することである。
セマンティックキーポイントに基づくポーズ推定モデルであるC-3POを提案する。
論文 参考訳(メタデータ) (2022-06-22T17:06:39Z) - Probing Model Signal-Awareness via Prediction-Preserving Input
Minimization [67.62847721118142]
モデルが正しい脆弱性信号を捕捉して予測する能力を評価する。
SAR(Signal-Aware Recall)と呼ばれる新しい指標を用いて,モデルの信号認識を計測する。
その結果,90年代以降のリコールから60年代以降のリコールは,新たな指標で大幅に減少した。
論文 参考訳(メタデータ) (2020-11-25T20:05:23Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。