論文の概要: Decomposing how prompting steers behavior
- arxiv url: http://arxiv.org/abs/2606.03093v1
- Date: Tue, 02 Jun 2026 03:27:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.729948
- Title: Decomposing how prompting steers behavior
- Title(参考訳): ステアリングの仕方
- Authors: Fan L. Cheng, Nikolaus Kriegeskorte,
- Abstract要約: 我々は、プロンプトによる表現変化を解釈可能な幾何学的成分に分解する。
我々のフレームワークは、モデルがタスク関連構造をルートして、プロンプト駆動の振る舞いを生成する方法を明らかにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompting steers large language models (LLMs) and vision-language models (VLMs) without weight updates, but it remains unclear how instruction changes reshape internal representations to produce behavior. We introduce a nested geometric decomposition framework that treats prompting as a transformation of the representational geometry of the content following the prompt. For each prompt pair, we align representations of the same stimuli under two prompts using increasingly expressive stimulus-invariant maps: translation, rigid transformation with uniform scaling, sequential axis scaling, affine transformation, and nonlinear transformation. We then causally test each map by replacing a single layer's prompt-A hidden state for held-out stimuli with its mapped counterpart and measuring recovery of prompt-B representational geometry and behavior. Across three LLMs, three VLMs, and six text or image datasets spanning style, emotion, scene content, and number, prompts consistently reshape representations toward the instructed task structure. Cross-validated variance decomposition shows that much prompt-induced activation change is captured by shape-preserving maps, especially translation and rigid transformation with uniform scaling, while tier profiles reveal model- and task-specific routing strategies across layers. Crucially, although translation and rigid tiers already improve behavioral agreement, affine transformation is the first tier to nearly recover target-prompt task geometry and yields corresponding behavioral gains. This suggests that cross-dimensional linear mixing is a key mechanism by which prompts reorganize representations toward instructed task structure. Our framework decomposes prompt-induced representational change into interpretable geometric components and reveals how models route task-relevant structure to produce prompt-driven behavior.
- Abstract(参考訳): Prompting steers large language model (LLMs) と Vision-Language model (VLMs) は重み付けを伴わないが、どのように命令が内部表現を変換して振る舞いを生成するかは定かではない。
本稿では,プロンプトに続くコンテンツの表現幾何学の変換としてプロンプトを扱うネスト型幾何学的分解フレームワークを提案する。
各プロンプトペアに対して、より表現力のある刺激不変写像を用いて、同じ刺激の表現を2つのプロンプトの下に整列させる: 変換、一様スケーリングによる剛性変換、逐次軸スケーリング、アフィン変換、非線形変換。
次に,各写像の因果的検証を行い,一層のプロンプト-A隠れ状態と,そのマップ化された刺激とを置換し,プロンプト-B表現幾何学と挙動の回復を計測した。
3つのLDM、3つのVLM、スタイル、感情、シーン内容、数字にまたがる6つのテキストまたはイメージデータセットは、指示されたタスク構造に対して一貫して表現を再構築する。
クロスバリデード分散分解は、形状保存マップ、特に一様スケーリングによる変換と剛性変換によって、多くのアクティベーション変化が捕捉され、階層プロファイルは層間のモデルおよびタスク固有のルーティング戦略を示すことを示している。
重要なことに、翻訳層と剛性層はすでに行動の一致を改善しているが、アフィン変換はターゲット・プロンプト・タスク・ジオメトリをほぼ回復し、対応する行動の利得を得る最初の層である。
このことは、クロス次元線形混合が、指示されたタスク構造に対して表現を再編成する鍵となるメカニズムであることを示唆している。
提案フレームワークは,プロンプトによる表現変化を解釈可能な幾何学的成分に分解し,モデルがタスク関連構造を経路してプロンプト駆動行動を生成する方法を明らかにする。
関連論文リスト
- Video Analysis and Generation via a Semantic Progress Function [75.07700965101854]
与えられたシーケンスの意味が時間とともにどのように進化するかをキャプチャする一次元表現を導入する。
各フレームに対して、セマンティック埋め込み間の距離を計算し、シーケンス間の累積的なセマンティックシフトを反映する滑らかな曲線を適合させる。
この知見に基づいて,シーケンスをパラメータ化して意味変化を一定速度で展開する意味線形化手法を提案する。
論文 参考訳(メタデータ) (2026-04-24T13:48:51Z) - Learning 3D Representations for Spatial Intelligence from Unposed Multi-View Images [81.94999489820974]
UniSplat (UniSplat) は、未提示のマルチビュー画像から3D表現を学習するためのフィードフォワードフレームワークである。
エンコーダにおける幾何誘導を強化するデュアルマスキング戦略を導入する。
第2に,外見のセマンティックな矛盾を解消する粗大なガウス的スプレイティング戦略を開発する。
第3に、予測された3次元点と意味マップを画像平面に相互に関連付ける、ポーズ条件の補正機構を導入する。
論文 参考訳(メタデータ) (2026-04-12T10:36:18Z) - Context Structure Reshapes the Representational Geometry of Language Models [9.670218260803628]
大規模言語モデル(LLM)は入力シーケンスの表現をよりまっすぐな神経軌道に整理する。
近年の研究では、この文脈内学習が表現的変化に反映できることが示されている。
Gemma 2モデルにおける表現的ストレート化を、さまざまなコンテキスト内タスクの集合にわたって測定する。
論文 参考訳(メタデータ) (2026-01-29T22:17:17Z) - Talk2Move: Reinforcement Learning for Text-Instructed Object-Level Geometric Transformation in Scenes [69.4534914304302]
本研究では,シーン内のオブジェクトのテキストによる空間変換を行うフレームワークであるTalk2Moveを紹介する。
Talk2Moveでは,さまざまなロールアウトを通じて幾何学的アクションを探索するために,グループ相対ポリシー最適化を採用している。
キュレートされたベンチマークの実験では、Talk2Moveは正確で一貫性があり、セマンティックに忠実なオブジェクト変換を実現している。
論文 参考訳(メタデータ) (2026-01-05T18:55:32Z) - GeoSketch: A Neural-Symbolic Approach to Geometric Multimodal Reasoning with Auxiliary Line Construction and Affine Transformation [28.500787311066563]
GeoSketchは、幾何学的推論をインタラクティブな知覚・推論・アクションループとして再キャストする、ニューラルシンボリックなフレームワークである。
階層的な意思決定、実行可能な視覚行動、象徴的な検証を統一することにより、GeoSketchは静的解釈から動的相互作用へのマルチモーダル推論を前進させる。
論文 参考訳(メタデータ) (2025-09-26T15:12:04Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。