論文の概要: Linear representations in language models can change dramatically over a conversation
- arxiv url: http://arxiv.org/abs/2601.20834v2
- Date: Mon, 02 Feb 2026 21:30:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 16:18:58.803642
- Title: Linear representations in language models can change dramatically over a conversation
- Title(参考訳): 言語モデルにおける線形表現は会話中に劇的に変化する
- Authors: Andrew Kyle Lampinen, Yuxuan Li, Eghbal Hosseini, Sangnie Bhardwaj, Murray Shanahan,
- Abstract要約: 言語モデル表現は高次概念に対応する線形方向を含むことが多い。
線形表現は会話中に劇的に変化する。
また, 表象方向の操舵は, 会話の異なる点において, 劇的に異なる効果を持つことを示す。
- 参考スコア(独自算出の注目度): 12.34627880378922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model representations often contain linear directions that correspond to high-level concepts. Here, we study the dynamics of these representations: how representations evolve along these dimensions within the context of (simulated) conversations. We find that linear representations can change dramatically over a conversation; for example, information that is represented as factual at the beginning of a conversation can be represented as non-factual at the end and vice versa. These changes are content-dependent; while representations of conversation-relevant information may change, generic information is generally preserved. These changes are robust even for dimensions that disentangle factuality from more superficial response patterns, and occur across different model families and layers of the model. These representation changes do not require on-policy conversations; even replaying a conversation script written by an entirely different model can produce similar changes. However, adaptation is much weaker from simply having a sci-fi story in context that is framed more explicitly as such. We also show that steering along a representational direction can have dramatically different effects at different points in a conversation. These results are consistent with the idea that representations may evolve in response to the model playing a particular role that is cued by a conversation. Our findings may pose challenges for interpretability and steering -- in particular, they imply that it may be misleading to use static interpretations of features or directions, or probes that assume a particular range of features consistently corresponds to a particular ground-truth value. However, these types of representational dynamics also point to exciting new research directions for understanding how models adapt to context.
- Abstract(参考訳): 言語モデル表現は高次概念に対応する線形方向を含むことが多い。
ここでは、これらの表現のダイナミクスについて研究する: 表現は、(シミュレートされた)会話の文脈内で、これらの次元に沿ってどのように進化するか。
例えば、会話の開始時に事実として表現される情報は、最後には非事実として表現され、その逆も表現される。
これらの変更は内容に依存し、会話関連情報の表現は変更されるが、一般的な情報は一般に保存される。
これらの変化は、より表面的な応答パターンから事実性を遠ざけ、モデルの異なるモデルファミリや層にまたがって起こる次元に対しても堅牢である。
これらの表現の変更は、政治上の会話を必要としない。全く異なるモデルで書かれた会話スクリプトを再生しても、同様の変更が生じる。
しかし、適応は、より明確にフレーム化されている文脈において、単にSFストーリーを持つというよりは、はるかに弱い。
また, 表象方向の操舵は, 会話の異なる点において, 劇的に異なる効果を持つことを示す。
これらの結果は、表現が会話によって導かれる特定の役割を演じるモデルに応答して進化するという考えと一致している。
特に、特徴や方向の静的な解釈を使うことが誤解を招きかねないことや、特定の特徴の特定の範囲が一定の基底真理値に一貫して一致すると仮定するプローブがあることを示唆している。
しかし、このような表現力学は、モデルが文脈にどのように適応するかを理解するための新しい研究の方向性を示唆している。
関連論文リスト
- Counterfactual reasoning: an analysis of in-context emergence [57.118735341305786]
我々は、言語モデルが反実的推論が可能なことを示す。
自己注意、モデル深度、トレーニング済みデータの多様性によってパフォーマンスが向上することがわかった。
以上の結果から, SDE 動態下での反実的推論が可能となった。
論文 参考訳(メタデータ) (2025-06-05T16:02:07Z) - Gender Bias in Instruction-Guided Speech Synthesis Models [55.2480439325792]
本研究では、モデルが職業関連プロンプトをどのように解釈するかにおける潜在的な性別バイアスについて検討する。
このようなプロンプトを解釈する際に、これらのモデルがジェンダーステレオタイプを増幅する傾向を示すかどうかを検討する。
実験の結果, ある職業において, 性別偏見を示す傾向が示された。
論文 参考訳(メタデータ) (2025-02-08T17:38:24Z) - ICLR: In-Context Learning of Representations [19.331483579806623]
文脈の規模が拡大するにつれて、事前訓練された意味表現から、グラフ構造に整合した文脈内表現への突然の再構成が存在することを示す。
以上の結果から,拡張コンテキストサイズはモデル表現を柔軟に再構成し,新たな能力を解き放つ可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-29T18:58:09Z) - Representations as Language: An Information-Theoretic Framework for Interpretability [7.2129390689756185]
大規模ニューラルモデルは、幅広い言語的タスクにまたがる印象的なパフォーマンスを示す。
それにもかかわらず、それらは主にブラックボックスであり、解釈が難しい入力のベクトル表現を誘導する。
本稿では,モデルが文から表現へ学習するマッピングを,言語の一種として表現する,解釈可能性に対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-04T16:14:00Z) - A Practical Method for Generating String Counterfactuals [106.98481791980367]
言語モデル(LM)の表現空間をターゲットとした介入は、モデル行動に影響を与える効果的な手段として現れてきた。
表現反事実を文字列反事実に変換する方法を提案する。
結果として生じるカウンターファクトは、データ拡張による分類のバイアスを軽減するために使用することができる。
論文 参考訳(メタデータ) (2024-02-17T18:12:02Z) - Psychologically-informed chain-of-thought prompts for metaphor
understanding in large language models [29.993190226231793]
我々はチェーン・オブ・シント・プロンプトを使って確率モデルから大きな言語モデルに構造を導入する。
我々のプロンプトは、メタファーの適切なパラフレーズを選択するために、言語モデルに潜伏変数を推論し、それらの関係を推論する。
論文 参考訳(メタデータ) (2022-09-16T19:23:13Z) - Implicit Representations of Meaning in Neural Language Models [31.71898809435222]
会話を通して進化する実体や状況のモデルとして機能する文脈表現を同定する。
その結果,事前学習されたニューラルネットワークモデルにおける予測は,少なくとも部分的には,意味の動的表現と実体状態の暗黙的なシミュレーションによって支持されていることが示唆された。
論文 参考訳(メタデータ) (2021-06-01T19:23:20Z) - Assessing Phrasal Representation and Composition in Transformers [13.460125148455143]
ディープトランスモデルはNLPタスクのパフォーマンスを新たな限界に押し上げた。
本稿では,最先端の事前学習型トランスにおけるフレーズ表現の系統的解析を行う。
これらのモデルにおける句表現は、単語の内容に大きく依存しており、ニュアンスな構成の証拠はほとんどない。
論文 参考訳(メタデータ) (2020-10-08T04:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。