論文の概要: How Does Controllability Emerge In Language Models During Pretraining?
- arxiv url: http://arxiv.org/abs/2508.01892v1
- Date: Sun, 03 Aug 2025 18:58:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.111088
- Title: How Does Controllability Emerge In Language Models During Pretraining?
- Title(参考訳): 事前学習時の言語モデルに制御性はどのように現れるか?
- Authors: Jianshu She, Xinyue Li, Eric Xing, Zhengzhong Liu, Qirong Ho,
- Abstract要約: インターベンション検出器」は, 直線的操舵性がトレーニング中にどのように進化するかを明らかにするために設計されている。
トレーニングの中間段階において介入効果が出現することが示唆された。
さらに密接に関連する概念(怒りや悲しみなど)は、異なる訓練段階においてステアビリティの出現を示す。
- 参考スコア(独自算出の注目度): 5.146344256708887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models can be steered by modifying their internal representations to control concepts such as emotion, style, or truthfulness in generation. However, the conditions for an effective intervention remain unclear and are often validated through heuristics and trial-and-error. To fill this gap, we demonstrate that intervention efficacy, measured by linear steerability (i.e., the ability to adjust output via linear transformations of hidden states), emerges during intermediate stages of training. Moreover, even closely related concepts (e.g., anger and sadness) exhibit steerability emergence at distinct stages of training. To better interpret the dynamics of steerability during training, we adapt existing intervention techniques into a unified framework, referred to as the "Intervention Detector" (ID), which is designed to reveal how linear steerability evolves over the course of training through hidden state and representation analysis. ID reveals that concepts become increasingly linearly separable in the hidden space as training progresses, which strongly correlates with the emergence of linear steerability. We further introduce ID-based metrics, such as heatmaps, entropy trends, and cosine similarity, to help interpret how linear steerability evolves throughout training. In addition, we apply ID across different model families to ensure the generality of our findings on steerability dynamics.
- Abstract(参考訳): 言語モデルは、感情、スタイル、世代内の真実性といった概念を制御するために、内部表現を変更することで、操縦することができる。
しかし、効果的な介入の条件は未定であり、しばしばヒューリスティックスやトライアル・アンド・エラーによって検証される。
このギャップを埋めるために、リニアステアビリティ(隠れ状態の線形変換による出力調整能力)によって測定された介入効果が、トレーニングの中間段階に現れることを実証する。
さらに、密接に関連する概念(例えば、怒りや悲しみ)でさえ、異なる訓練段階において、ステアビリティの出現を示す。
トレーニング中のステアビリティのダイナミクスをよりよく理解するために,既存の介入テクニックを,隠れ状態と表現分析を通じてトレーニング中に線形ステアビリティがどのように進化するかを明らかにするために,"Intervention Detector"(ID)と呼ばれる統合フレームワークに適応させる。
IDは、トレーニングが進むにつれて、隠された空間において概念がますます線形分離可能であることを明らかにし、線形ステアビリティの出現と強く関連している。
さらに,熱マップ,エントロピー傾向,コサイン類似性などのIDベースのメトリクスを導入し,トレーニングを通じて線形ステアビリティがどのように進化するかを解釈する。
さらに、異なるモデルファミリーにIDを適用して、ステアビリティのダイナミクスに関する発見の一般性を確保する。
関連論文リスト
- Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations [68.9300049150948]
インタラクション実証(Reinforcement Demonstration, RLID)からの強化学習における根本的な課題に対処する。
既存のデータ収集アプローチはスパース、非接続、ノイズのトラジェクトリを生成し、スキルのバリエーションとトランジションの完全なスペクトルをキャプチャできない。
本稿では,実証技術間の潜在的な遷移を検出するStitched Trajectory Graph (STG) と,実証地区内の任意の状態に対するユニークな接続を確立するState Transition Field (STF) という2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2025-05-04T13:00:29Z) - Training Dynamics of In-Context Learning in Linear Attention [6.663503238373593]
In-context linear regression のために訓練されたマルチヘッド線形自己アテンションの勾配勾配勾配ダイナミクスについて検討した。
線形アテンションの勾配降下訓練中にICLの能力がどのように進化するかを理論的に記述する。
論文 参考訳(メタデータ) (2025-01-27T18:03:00Z) - Diffusing States and Matching Scores: A New Framework for Imitation Learning [16.941612670582522]
敵対的模倣学習は伝統的に、学習者と敵対的に選択されたコスト関数の間の2つのプレイヤーゼロサムゲームとしてフレーム化されている。
拡散モデルは、回帰を通じてスコア関数を訓練することだけを必要とするGANの非敵対的な代替品として登場した。
提案手法は, GANスタイルの模倣学習ベースラインと差別化なし模倣学習ベースラインの両方を, 連続制御問題に比較して優れていることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:25Z) - Asymptotic theory of in-context learning by linear attention [33.53106537972063]
インコンテキスト学習はトランスフォーマーの成功の土台である。
ICLを成功させるためには、必要なサンプルの複雑さ、事前学習タスクの多様性、コンテキストの長さに関する質問は未解決のままである。
論文 参考訳(メタデータ) (2024-05-20T03:24:24Z) - Revisiting Dynamic Evaluation: Online Adaptation for Large Language
Models [88.47454470043552]
我々は、動的評価(動的評価)としても知られる、テスト時の言語モデルのパラメータをオンラインで微調整する問題を考察する。
オンライン適応はパラメータを時間的に変化する状態に変換し、メモリを重み付けしたコンテキスト長拡張の形式を提供する。
論文 参考訳(メタデータ) (2024-03-03T14:03:48Z) - Can Active Sampling Reduce Causal Confusion in Offline Reinforcement
Learning? [58.942118128503104]
因果的混乱(英: Causal confusion)とは、エージェントがデータ中の不完全な急激な相関を反映するポリシーを学ぶ現象である。
この現象は特にロボット工学などの領域で顕著である。
本稿では,オフライン強化学習における因果的混乱について検討する。
論文 参考訳(メタデータ) (2023-12-28T17:54:56Z) - Latent Traversals in Generative Models as Potential Flows [113.4232528843775]
我々は,学習された動的ポテンシャルランドスケープを持つ潜在構造をモデル化することを提案する。
物理、最適輸送、神経科学にインスパイアされたこれらの潜在的景観は、物理的に現実的な偏微分方程式として学習される。
本手法は,最先端のベースラインよりも定性的かつ定量的に歪んだ軌跡を実現する。
論文 参考訳(メタデータ) (2023-04-25T15:53:45Z) - Identifying Equivalent Training Dynamics [3.793387630509845]
共役および非共役のトレーニングダイナミクスを識別するフレームワークを開発する。
クープマン作用素理論の進歩を利用して、クープマン固有値を比較することで、オンラインミラー降下とオンライン勾配降下の既知同値を正しく同定できることを実証する。
a)浅層ニューラルネットワークと広層ニューラルネットワークの間の非共役トレーニングダイナミクスの同定、(b)畳み込みニューラルネットワークにおけるトレーニングダイナミクスの初期段階の特徴付け、(c)グルーキングを行わないトランスフォーマーにおける非共役トレーニングダイナミクスの発見。
論文 参考訳(メタデータ) (2023-02-17T22:15:20Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。