論文の概要: Unveiling the Latent Directions of Reflection in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.16989v1
- Date: Sat, 23 Aug 2025 11:05:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.286119
- Title: Unveiling the Latent Directions of Reflection in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるリフレクションの潜在方向の解明
- Authors: Fu-Chieh Chang, Yu-Ting Lee, Pei-Yuan Wu,
- Abstract要約: モデルアクティベーションにおける遅延方向レンズによる反射について検討する。
新しい反射誘導命令は体系的に識別でき、反射行動を直接強化または抑制することができる。
この研究は、大きな言語モデルにおける反射的推論の機械論的理解への道を開く。
- 参考スコア(独自算出の注目度): 3.396557052704669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reflection, the ability of large language models (LLMs) to evaluate and revise their own reasoning, has been widely used to improve performance on complex reasoning tasks. Yet, most prior work emphasizes designing reflective prompting strategies or reinforcement learning objectives, leaving the inner mechanisms of reflection underexplored. In this paper, we investigate reflection through the lens of latent directions in model activations. We propose a methodology based on activation steering to characterize how instructions with different reflective intentions: no reflection, intrinsic reflection, and triggered reflection. By constructing steering vectors between these reflection levels, we demonstrate that (1) new reflection-inducing instructions can be systematically identified, (2) reflective behavior can be directly enhanced or suppressed through activation interventions, and (3) suppressing reflection is considerably easier than stimulating it. Experiments on GSM8k-adv with Qwen2.5-3B and Gemma3-4B reveal clear stratification across reflection levels, and steering interventions confirm the controllability of reflection. Our findings highlight both opportunities (e.g., reflection-enhancing defenses) and risks (e.g., adversarial inhibition of reflection in jailbreak attacks). This work opens a path toward mechanistic understanding of reflective reasoning in LLMs.
- Abstract(参考訳): 大規模な言語モデル(LLM)が自身の推論を評価し、修正する能力であるリフレクションは、複雑な推論タスクのパフォーマンス向上に広く利用されている。
しかし、これまでのほとんどの研究は、反射的促進戦略や強化学習目標の設計に重点を置いており、反射の内側のメカニズムは未解明のままである。
本稿では,モデルアクティベーションにおける遅延方向レンズの反射について検討する。
本研究では,異なる反射意図を持つ命令をどう特徴づけるかを,アクティベーションステアリングに基づく手法を提案する。
これらのリフレクションレベル間のステアリングベクターを構築することにより、(1)新しいリフレクション誘導命令を体系的に特定でき、(2)リフレクティブな動作を直接強化または抑制することができ、(3)リフレクションの抑制が刺激よりもかなり容易であることを示す。
Qwen2.5-3B と Gemma3-4B による GSM8k-adv 実験では, 反射レベルの明確な成層化が明らかとなり, 操舵操作により反射の制御性が確認された。
本研究は, リスク(例えば, 反省的防御)とリスク(例えば, 脱獄攻撃における反省的反射抑制)の両方を浮き彫りにした。
この研究は、LLMにおけるリフレクティブ推論の機械的理解への道を開く。
関連論文リスト
- ReflectEvo: Improving Meta Introspection of Small LLMs by Learning Self-Reflection [60.75785864719726]
本稿では,小言語モデル(SLM)がリフレクション学習を通じてメタイントロスペクションを向上させることを実証するために,新しいパイプラインであるReflectEvoを提案する。
大規模かつ包括的かつ自己生成型リフレクションデータセットであるReflectEvo-460kを構築し,多様なマルチドメインタスクを実現する。
論文 参考訳(メタデータ) (2025-05-22T10:03:05Z) - Perception in Reflection [39.33505560810175]
本稿では,現在の大規模視覚言語モデルの限界を超越したリフレクションパラダイムを提案する。
本稿では、ポリシーと批判モデルとを体系的に交互に交互に行う二重モデル反射機構である反射知覚(RePer)を提案する。
論文 参考訳(メタデータ) (2025-04-09T17:59:02Z) - Instruct-of-Reflection: Enhancing Large Language Models Iterative Reflection Capabilities via Dynamic-Meta Instruction [11.838351314880736]
インストラクション・オブ・リフレクション(英: Instruct-of-Reflection、IoRT)は、大規模言語モデル(LLM)の反復的リフレクション能力を高めるために動的メタ命令を活用する、新しく一般的なリフレクションフレームワークである。
実験の結果、IoRTは数学的および常識的推論タスクにおいて、確立されたベースラインよりも平均10.1%向上していることがわかった。
論文 参考訳(メタデータ) (2025-03-02T14:02:03Z) - Meta-Reflection: A Feedback-Free Reflection Learning Framework [57.14485943991588]
外部からのフィードバックを伴わずに単一の推論パスのみを必要とするフィードバックフリーリフレクション機構であるメタリフレクションを提案する。
過去のリフレクションを記憶し、取り出す人間の能力によって、メタリフレクションはコードブックに反射的な洞察を統合する。
実世界のシナリオにおけるメタリフレクションの実践性を徹底的に検討し,評価するために,E-Commerce Customer Intent Detectionという産業eコマースベンチマークを導入する。
論文 参考訳(メタデータ) (2024-12-18T12:20:04Z) - FIRM: Flexible Interactive Reflection reMoval [75.38207315080624]
本稿では,フレキシブル・インタラクティブ・イメージ・リフレクション・リモーバルのための新しいフレームワークFIRMを提案する。
提案するフレームワークは,従来の対話的手法で必要とされるガイダンス時間の10%しか必要としない。
実世界のリフレクション除去データセットの結果から,提案手法が最先端のリフレクション除去性能を示すことが確認された。
論文 参考訳(メタデータ) (2024-06-03T17:34:37Z) - Mirror: A Multiple-perspective Self-Reflection Method for Knowledge-rich Reasoning [18.5717357875955]
大規模言語モデル(LLM)は、外部リソースにアクセスすることなく知識に富んだ問題に対処する。
知識豊富な推論のための多重パースペクティブ自己回帰法であるMirrorを提案する。
論文 参考訳(メタデータ) (2024-02-22T20:57:17Z) - Pinning "Reflection" on the Agenda: Investigating Reflection in Human-LLM Co-Creation for Creative Coding [20.58817370147299]
本研究は,創造的符号化における位置的,瞬間的,モーメント的反射を2つのプロンプト戦略の下で検討する。
混合法の結果は3つの異なる反射型を示し、T2はより頻度が高く、戦略的で、生成的反射を促進することを示した。
論文 参考訳(メタデータ) (2024-02-15T07:00:06Z) - Revisiting Single Image Reflection Removal In the Wild [83.42368937164473]
本研究は,実環境におけるシングルイメージリフレクション除去(SIRR)の問題に焦点をあてる。
我々は,様々な現実世界のリフレクションシナリオに高度に適用可能な,高度なリフレクション収集パイプラインを考案した。
野生での反射除去(RRW)と呼ばれる大規模で高品質な反射データセットを開発する。
論文 参考訳(メタデータ) (2023-11-29T02:31:10Z) - Location-aware Single Image Reflection Removal [54.93808224890273]
本稿では,位置認識型深層学習に基づく単一画像反射除去手法を提案する。
我々は,リフレクション信頼度マップをネットワークの手がかりとして活用し,リフレクション情報を適応的にエンコードする方法を学習する。
位置情報のネットワークへの統合は、反射除去結果の品質を大幅に向上させる。
論文 参考訳(メタデータ) (2020-12-13T19:34:35Z) - Two-Stage Single Image Reflection Removal with Reflection-Aware Guidance [78.34235841168031]
シングルイメージリフレクション除去(SIRR)のためのリフレクション・アウェア・ガイダンス(RAGNet)を用いた新しい2段階ネットワークを提案する。
RAGは、(i)観測からの反射の効果を緩和するために、(ii)線形結合仮説から逸脱する効果を緩和するための部分畳み込みにおいてマスクを生成するために用いられる。
5つの一般的なデータセットの実験は、最先端のSIRR法と比較して、RAGNetの量的および質的な優位性を実証している。
論文 参考訳(メタデータ) (2020-12-02T03:14:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。