論文の概要: Project Aletheia: Verifier-Guided Distillation of Backtracking for Small Language Models
- arxiv url: http://arxiv.org/abs/2601.14290v1
- Date: Wed, 14 Jan 2026 14:39:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.075399
- Title: Project Aletheia: Verifier-Guided Distillation of Backtracking for Small Language Models
- Title(参考訳): プロジェクト・アレクシア:小言語モデルのための検証ガイド付きバックトラックの蒸留
- Authors: Aradhya Dixit, Tianxi Liang, Jai Telang,
- Abstract要約: 小言語モデル(SLM、Small Language Models)は、プライベートなデバイス上でのデプロイメントには魅力的である。
本稿では,エラー修復の過程を伝達するトレーニングプロトコルであるVerifier-Guided Distillationを紹介する。
潜在検証動作が小さなモデルに現れる可能性を示し、時折停止し、矛盾を検知し、以前の仮定を修正できるようにします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Small Language Models (SLMs, under 10B parameters) are attractive for private, on-device deployment, yet they frequently fail on strict constraint-satisfaction problems due to linear, overconfident reasoning traces that do not recover from early mistakes. We introduce Verifier-Guided Distillation, a training protocol that transfers the process of error repair - explicit conflict detection and backtracking - rather than only correct final answers. By training a 7B model on verified reasoning traces that include mistakes and self-corrections, we show that latent verification behavior can emerge in small models, enabling them to occasionally stop, detect contradictions, and revise earlier assumptions.
- Abstract(参考訳): 小言語モデル(SLM、Small Language Models)は、プライベートなオンデバイスデプロイメントには魅力的だが、初期のミスから回復しない線形で過度に信頼された推論トレースのため、厳密な制約-満足の問題でしばしば失敗する。
最終回答のみを正すのではなく,エラー修正のプロセス – 明示的な競合検出とバックトラッキング – を転送するトレーニングプロトコルであるVerifier-Guided Distillationを導入する。
誤りや自己補正を含む検証された推論トレースに基づいて7Bモデルをトレーニングすることにより、潜伏した検証動作が小さなモデルに出現し、時折停止し、矛盾を検知し、以前の仮定を修正できることを示す。
関連論文リスト
- InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning [32.274434679047395]
アウトカム・リワード強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上に有効であることが証明された。
標準RLは最終回答のレベルにのみクレジットを割り当て、結果が正しくない場合にすべての推論トレースを罰する。
Invention Training (InT) は、モデルが独自の推論トレースに基づいてきめ細かいクレジット割り当てを行う訓練パラダイムである。
論文 参考訳(メタデータ) (2026-01-20T18:15:38Z) - Probing for Arithmetic Errors in Language Models [86.8227317662622]
言語モデルの内部アクティベーションは、算術誤差を検出するために使用できる。
単純なプローブはモデルが予測した出力と正解の両方を隠蔽状態から正確に復号できることを示す。
モデル精度を90%以上の精度で予測する軽量エラー検出器を訓練する。
論文 参考訳(メタデータ) (2025-07-16T16:27:50Z) - Language Models can perform Single-Utterance Self-Correction of Perturbed Reasoning [4.768151813962547]
大規模言語モデル(LLM)は、驚くべき数学的推論能力を示している。
それらの性能は、問題記述と迅速な戦略の微妙なバリエーションに引き続き脆弱である。
近年のモデルの自己補正能力をよりよく理解するために,モデルが自己補正合成を行う能力を測定する実験を行った。
論文 参考訳(メタデータ) (2025-06-18T21:35:44Z) - Technical Report for Egocentric Mistake Detection for the HoloAssist Challenge [5.257305312436567]
手続き的エラーと実行的エラーの両方を処理するオンライン誤り検出フレームワークを導入する。
誤りを検知すると、説明的フィードバックを生成するために大きな言語モデル(LLM)を使用する。
HoloAssistベンチマークの実験により,本手法の有効性が確認された。
論文 参考訳(メタデータ) (2025-06-06T15:39:09Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - PREGO: online mistake detection in PRocedural EGOcentric videos [49.72812518471056]
自己中心型ビデオにおける誤り検出のための,最初のオンライン一級分類モデルであるPregoを提案する。
PreGOは、現在のアクションをモデル化するオンラインアクション認識コンポーネントと、次のアクションを予測するシンボリック推論モジュールに基づいている。
手続き的誤り検出のオンラインベンチマークに適応する2つの手続き的自己中心型ビデオデータセットであるAmbly101とEpic-tentについてPreGOを評価した。
論文 参考訳(メタデータ) (2024-04-02T13:27:28Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。