論文の概要: From Latent Signals to Reflection Behavior: Tracing Meta-Cognitive Activation Trajectory in R1-Style LLMs
- arxiv url: http://arxiv.org/abs/2602.01999v1
- Date: Mon, 02 Feb 2026 11:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.122201
- Title: From Latent Signals to Reflection Behavior: Tracing Meta-Cognitive Activation Trajectory in R1-Style LLMs
- Title(参考訳): 潜時信号から反射行動へ:R1-Style LLMにおけるメタ認知活性化軌道の追跡
- Authors: Yanrui Du, Yibo Gao, Sendong Zhao, Jiayun Li, Haochun Wang, Qika Lin, Kai He, Bing Qin, Mengling Feng,
- Abstract要約: R1型LPMは自己反射の能力に注目が集まっているが、そのような行動の基盤となる内部メカニズムはいまだ不明である。
logitレンズを使ってトークンレベルのセマンティクスを読み取ると、構造化された進行が明らかになる。
以上の結果から,潜時モニタリングから談話レベルの規制,そして最終的に自己回帰を過大化させる,人間的なメタ認知プロセスの進展が示唆された。
- 参考スコア(独自算出の注目度): 48.33546389897804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: R1-style LLMs have attracted growing attention for their capacity for self-reflection, yet the internal mechanisms underlying such behavior remain unclear. To bridge this gap, we anchor on the onset of reflection behavior and trace its layer-wise activation trajectory. Using the logit lens to read out token-level semantics, we uncover a structured progression: (i) Latent-control layers, where an approximate linear direction encodes the semantics of thinking budget; (ii) Semantic-pivot layers, where discourse-level cues, including turning-point and summarization cues, surface and dominate the probability mass; and (iii) Behavior-overt layers, where the likelihood of reflection-behavior tokens begins to rise until they become highly likely to be sampled. Moreover, our targeted interventions uncover a causal chain across these stages: prompt-level semantics modulate the projection of activations along latent-control directions, thereby inducing competition between turning-point and summarization cues in semantic-pivot layers, which in turn regulates the sampling likelihood of reflection-behavior tokens in behavior-overt layers. Collectively, our findings suggest a human-like meta-cognitive process-progressing from latent monitoring, to discourse-level regulation, and to finally overt self-reflection. Our analysis code can be found at https://github.com/DYR1/S3-CoT.
- Abstract(参考訳): R1型LPMは自己反射の能力に注目が集まっているが、そのような行動の基盤となる内部メカニズムはいまだ不明である。
このギャップを埋めるために、反射挙動の開始に固定し、その層回りの活性化軌道を辿る。
logitレンズを使ってトークンレベルのセマンティクスを読み取ると、構造化された進行が明らかになる。
一 近似線形方向が思考予算の意味をコードする潜在制御層
2 旋回点及び要約を含む談話レベルの手がかりが、確率質量を表わし、支配するセマンティック・ピボット層
3) 反射行動トークンの確率が高くなるまで上昇し始める挙動オーバート層。
さらに,これらの段階にわたる因果連鎖を明らかにするために, アクティベートレベルのセマンティクスは, 潜在制御方向に沿ったアクティベーションのプロジェクションを調節し, セマンティック・ピボット層におけるターンポイントと要約キューの競合を誘導し, 行動オーバート層におけるリフレクション・ビヘイビアトークンのサンプリング可能性を制御する。
以上の結果から,潜時モニタリングから談話レベルの規制,そして最終的に自己反射を過度に克服する,人間的なメタ認知プロセスの進展が示唆された。
分析コードはhttps://github.com/DYR1/S3-CoT.comで確認できます。
関連論文リスト
- ReCALL: Recalibrating Capability Degradation for MLLM-based Composed Image Retrieval [64.14282916266998]
Composed Image Retrievalは、参照画像と修正テキストからなるハイブリッドクエリに基づいてターゲット画像を取得することを目的としている。
本稿では,診断・生成・再定義パイプラインに従うモデルに依存しないフレームワークであるReCALLを提案する。
CIRRとFashionIQの実験では、ReCALLは継続的に劣化した機能を再検討し、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-02T04:52:54Z) - Hallucination Begins Where Saliency Drops [18.189047289404325]
幻覚は、前の出力トークンが次のトークンの予測に対して低い正当性を示すときにしばしば起こる。
LVLMs-Saliencyは,各出力トークンの視覚的グラウンドリング強度を定量化する,勾配認識型診断フレームワークである。
本手法は, 流速とタスク性能を保ちながら幻覚率を大幅に低減し, 堅牢かつ解釈可能なソリューションを提供する。
論文 参考訳(メタデータ) (2026-01-28T05:50:52Z) - LLM-MC-Affect: LLM-Based Monte Carlo Modeling of Affective Trajectories and Latent Ambiguity for Interpersonal Dynamic Insight [1.1119672724275114]
感情調整は、人間の相互作用の中核的な性質であり、リアルタイムで意味が構築されるかを形成する。
本稿では,静的なラベルではなく,連続的な潜在確率分布として感情を特徴付ける確率的フレームワークを提案する。
この研究は、対人ダイナミクスを理解するためのスケーラブルでデプロイ可能な経路を確立し、一般化可能なソリューションを提供する。
論文 参考訳(メタデータ) (2026-01-07T06:50:41Z) - CBMAS: Cognitive Behavioral Modeling via Activation Steering [5.131778762865578]
大規模言語モデル(LLM)は、しばしばプロンプト、レイヤ、コンテキスト間で予測不可能な認知行動を符号化する。
CBMASは, 連続的アクティベーションステアリングのための診断フレームワークである。
論文 参考訳(メタデータ) (2026-01-03T13:04:14Z) - Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process [66.38541693477181]
本稿では, アクティベーション空間の方向として, 異なる推論挙動を符号化する, 推論ベクトルの発見のための教師なしフレームワークを提案する。
思考の連鎖トレースを文レベルの「ステップ」にセグメント化することで、リフレクションやバックトラックのような解釈可能な振る舞いに対応する歪んだ特徴を明らかにする。
本研究では,SAEデコーダ空間における信頼性関連ベクトルを同定し,応答信頼性を制御する能力を示す。
論文 参考訳(メタデータ) (2025-12-30T05:09:11Z) - SpatialTree: How Spatial Abilities Branch Out in MLLMs [109.32057088014942]
低レベル知覚(L1)、メンタルマッピング(L2)、シミュレーション(L3)、エージェント能力(L4)の4つのレベルに空間能力を整理する認知科学に着想を得た階層を導入する。
複雑な推論には役立ちますが、直感的な知覚を損ないます。
本稿では,不必要な熟考を抑制するシンプルな自己思考戦略を提案する。
論文 参考訳(メタデータ) (2025-12-23T18:59:46Z) - Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization [56.083511902353365]
強化学習(Reinforcement Learning, RL)は、一般的に、大規模言語モデルの全世代にわたって一様クレジットを適用する。
この研究は、LSMの内部論理を推論自体の機械的青写真として描画する特権基板として注意を向けている。
クリティカルノードに対するターゲットクレジット割り当てを動的に行う3つの新しいRL戦略を導入する。
論文 参考訳(メタデータ) (2025-10-15T13:49:51Z) - REAL: Reading Out Transformer Activations for Precise Localization in Language Model Steering [26.428347164111926]
推論時ステアリングは、パラメータを変更することなく、大きな言語モデルの応答を変更することを目的としている。
既存のアプローチはしばしば単純化的なキューやアドホックな一般化に依存している。
本稿では,Transformerモデルにおける振る舞い関連モジュールを識別するフレームワークであるREALを紹介する。
論文 参考訳(メタデータ) (2025-06-10T02:16:50Z) - Extreme Memorization via Scale of Initialization [72.78162454173803]
我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。
一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。
均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
論文 参考訳(メタデータ) (2020-08-31T04:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。