論文の概要: Self-Verifying Reflection Helps Transformers with CoT Reasoning
- arxiv url: http://arxiv.org/abs/2510.12157v1
- Date: Tue, 14 Oct 2025 05:22:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 21:19:14.973837
- Title: Self-Verifying Reflection Helps Transformers with CoT Reasoning
- Title(参考訳): CoT推論による変圧器の自己検証反射
- Authors: Zhongwei Yu, Wannian Xia, Xue Yan, Bo Xu, Haifeng Zhang, Yali Du, Jun Wang,
- Abstract要約: 先進的な大規模言語モデル(LLM)は、しばしば思考の連鎖(CoT)の推論に反映される
自然言語のない小型変圧器の基本的な自己検証リフレクションを支援するための最小主義的推論フレームワークを提案する。
数百万のパラメータしか持たない小さなトランスフォーマーは、トレーニングとリフレクティブ実行の両方において自己検証の恩恵を受ける。
- 参考スコア(独自算出の注目度): 17.52238613831439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advanced large language models (LLMs) frequently reflect in reasoning chain-of-thoughts (CoTs), where they self-verify the correctness of current solutions and explore alternatives. However, given recent findings that LLMs detect limited errors in CoTs, how reflection contributes to empirical improvements remains unclear. To analyze this issue, in this paper, we present a minimalistic reasoning framework to support basic self-verifying reflection for small transformers without natural language, which ensures analytic clarity and reduces the cost of comprehensive experiments. Theoretically, we prove that self-verifying reflection guarantees improvements if verification errors are properly bounded. Experimentally, we show that tiny transformers, with only a few million parameters, benefit from self-verification in both training and reflective execution, reaching remarkable LLM-level performance in integer multiplication and Sudoku. Similar to LLM results, we find that reinforcement learning (RL) improves in-distribution performance and incentivizes frequent reflection for tiny transformers, yet RL mainly optimizes shallow statistical patterns without faithfully reducing verification errors. In conclusion, integrating generative transformers with discriminative verification inherently facilitates CoT reasoning, regardless of scaling and natural language.
- Abstract(参考訳): 先進的な大規模言語モデル(LLM)は、しばしば、現在のソリューションの正しさを自己検証し、代替品を探究するチェーン・オブ・シント(CoT)の推論において反映される。
しかし、最近のLLMがCoTの限られた誤差を検出することを考えると、リフレクションが経験的改善にどのように貢献するかは明らかになっていない。
本稿では,自然言語のない小型変圧器の自己検証を行うための最小主義的推論フレームワークを提案する。
理論的には、自己検証反射は、検証エラーが適切に境界づけられている場合、改善を保証する。
実験により,数万のパラメータしか持たない小さな変圧器は,学習と反射実行の両方において自己検証の恩恵を受け,整数乗算と数独算において顕著なLLMレベルの性能を達成した。
LLMの結果と同様に、強化学習(RL)は分散性能を向上し、小さな変圧器に対して頻繁な反射を誘発するが、RLは主に、検証エラーを忠実に低減することなく、浅い統計パターンを最適化する。
結論として、生成変換器と識別的検証を統合することは、スケーリングや自然言語に関わらず、CoT推論を本質的に促進する。
関連論文リスト
- Towards Reliable and Practical LLM Security Evaluations via Bayesian Modelling [1.0266286487433585]
新しい大規模言語モデル(LLM)アーキテクチャを採用する前に、脆弱性を正確に理解することが重要である。
既存の評価を信頼することは困難であり、しばしばLLMから結論を導き出す。
インジェクション攻撃の迅速化を目的としたLCM脆弱性評価のための,原則的かつ実用的なエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-07T09:22:22Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Bridging Supervised Learning and Reinforcement Learning in Math Reasoning [55.889740979706815]
強化学習(Reinforcement Learning, RL)は、二分検証信号による自己改善を可能にすることで、近年の数学能力の急上昇において中心的な役割を担っている。
本研究は,LLMが障害を反映し,外部教師なしで自律的に改善できる教師型アプローチである負認識ファインチューニング(NFT)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:17:40Z) - TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning [11.573904453859098]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力を高める強力なツールとなった。
しかし、RLの成功は、検証者によって提供される報酬の信頼性に依存している。
本稿では, 正のモデル出力を誤って拒否する不適切な負の問題を公開し, 解析する。
既存のルールベースの手法を拡張する軽量なLCMベースの検証器である littleV を提案する。
論文 参考訳(メタデータ) (2025-05-20T17:16:44Z) - A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。
LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。
これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文 参考訳(メタデータ) (2024-05-28T22:33:02Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。