論文の概要: From Emergence to Control: Probing and Modulating Self-Reflection in Language Models
- arxiv url: http://arxiv.org/abs/2506.12217v1
- Date: Fri, 13 Jun 2025 20:40:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.488253
- Title: From Emergence to Control: Probing and Modulating Self-Reflection in Language Models
- Title(参考訳): 創発から制御へ:言語モデルにおける自己回帰の探索と制御
- Authors: Xudong Zhu, Jiachen Jiang, Mohammad Mahdi Khalili, Zhihui Zhu,
- Abstract要約: 自己回帰は、検証可能な報酬を伴う強化学習によって実現される強力な行動である。
自己回帰は微調整モデルに限らないことを示す。
- 参考スコア(独自算出の注目度): 23.176641726866105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-reflection -- the ability of a large language model (LLM) to revisit, evaluate, and revise its own reasoning -- has recently emerged as a powerful behavior enabled by reinforcement learning with verifiable rewards (RLVR). While self-reflection correlates with improved reasoning accuracy, its origin and underlying mechanisms remain poorly understood. In this work, {\it we first show that self-reflection is not exclusive to RLVR fine-tuned models: it already emerges, albeit rarely, in pretrained models}. To probe this latent ability, we introduce Reflection-Inducing Probing, a method that injects reflection-triggering reasoning traces from fine-tuned models into pretrained models. This intervention raises self-reflection frequency of Qwen2.5 from 0.6\% to 18.6\%, revealing a hidden capacity for reflection. Moreover, our analysis of internal representations shows that both pretrained and fine-tuned models maintain hidden states that distinctly separate self-reflective from non-reflective contexts. Leveraging this observation, {\it we then construct a self-reflection vector, a direction in activation space associated with self-reflective reasoning}. By manipulating this vector, we enable bidirectional control over the self-reflective behavior for both pretrained and fine-tuned models. Experiments across multiple reasoning benchmarks show that enhancing these vectors improves reasoning performance by up to 12\%, while suppressing them reduces computational cost, providing a flexible mechanism to navigate the trade-off between reasoning quality and efficiency without requiring additional training. Our findings further our understanding of self-reflection and support a growing body of work showing that understanding model internals can enable precise behavioral control.
- Abstract(参考訳): 大規模な言語モデル(LLM)が自身の推論を再検討し、評価し、修正する能力である自己回帰は、最近、検証可能な報酬(RLVR)による強化学習によって可能となる強力な行動として浮上した。
自己回帰は推論精度の向上と相関するが、その起源とそのメカニズムはいまだに理解されていない。
この研究において、まず最初に自己回帰はRLVRの微調整されたモデルに限らないことを示す:それは既に、事前訓練されたモデルにおいて、稀に現れる。
この潜在能力を探索するために, 微調整モデルから事前学習モデルに反射トリガー推論トレースを注入するリフレクション・インジェクション・プロービングを導入する。
この介入はQwen2.5の自己反射周波数を0.6\%から18.6\%に上昇させ、反射の隠れた能力を示す。
さらに、内部表現の分析により、事前学習されたモデルと微調整されたモデルの両方が、非反射的文脈と明確に分離した隠れ状態を維持していることが示された。
この観察を活用して、自己反射的推論に関連する活性化空間の方向である自己反射ベクトルを構築する。
このベクトルを演算することにより、事前訓練されたモデルと微調整されたモデルの両方に対する自己反射挙動の双方向制御を可能にする。
複数の推論ベンチマークでの実験では、これらのベクトルの強化は推論性能を最大12倍改善し、その抑制は計算コストを低減し、推論品質と効率のトレードオフを、追加のトレーニングを必要とせずにナビゲートする柔軟なメカニズムを提供する。
本研究は, 自己回帰の理解を深め, モデル内部の理解が正確な行動制御を可能にすることを示す。
関連論文リスト
- Efficient Reasoning Through Suppression of Self-Affirmation Reflections in Large Reasoning Models [29.615519143908998]
自己確認反射は、事前の内容を肯定する冗長な反射ステップであり、しばしば既に正しい推論ステップの後に起こる。
自己確認反射の抑制は複数のモデル間で精度を低下させることなく出力長を減少させることを示す。
また、そのような反射を明示的に抑制することで、現行の列車方式も改善する。
論文 参考訳(メタデータ) (2025-06-14T05:30:09Z) - Can Large Reasoning Models Self-Train? [58.953117118687096]
大規模言語モデルのスケールは、人間の監督への依存を減らす方法にますます依存している。
本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Thinking Out Loud: Do Reasoning Models Know When They're Right? [19.776645881640178]
大規模推論モデル(LRM)は、最近、複雑な推論タスクにおいて印象的な機能を示した。
本研究では,LRMが他のモデル行動とどのように相互作用するかを,言語的信頼度を解析することによって検討する。
推論モデルには、知識境界に対する認識の低下がある可能性がある。
論文 参考訳(メタデータ) (2025-04-09T03:58:19Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - CARIL: Confidence-Aware Regression in Imitation Learning for Autonomous Driving [0.0]
エンドツーエンドの視覚に基づく模倣学習は、自動運転の有望な結果を証明している。
従来のアプローチでは、正確な制御を提供するレグレッションベースモデルと、信頼性スコアを提供するが、離散化による精度の低下に悩まされる分類ベースモデルのいずれかに依存している。
我々は、回帰と分類の両ヘッドを統合したデュアルヘッドニューラルネットワークアーキテクチャを導入し、模倣学習における決定信頼性を向上させる。
論文 参考訳(メタデータ) (2025-03-02T08:19:02Z) - Self-rewarding correction for mathematical reasoning [19.480508580498103]
我々は,大規模言語モデル(LLM)の自己回帰的推論について研究する。
LLMは、ステップバイステップの推論を同時に生成し、外部からのフィードバックを伴わない推論時間における出力の正しさを評価する。
本稿では,自己生成データのみを用いて自己回帰推論モデルを構築するための2段階のアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-26T23:01:16Z) - When Hindsight is Not 20/20: Testing Limits on Reflective Thinking in Large Language Models [15.781930031346105]
自己回帰はTrthfulQAのパフォーマンスを高めるが、HotpotQAの結果に悪影響を及ぼす。
自己回帰は、モデルが最初は正しくない可能性が低く、全体的な疑問の難しさが高い場合に最も有益であることが分かる。
そこで本研究では,自己回帰の実施時期を判断するためのガイドラインを提案する。
論文 参考訳(メタデータ) (2024-04-14T02:47:32Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。