論文の概要: Linear representations in language models can change dramatically over a conversation
- arxiv url: http://arxiv.org/abs/2601.20834v2
- Date: Mon, 02 Feb 2026 21:30:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 16:18:58.803642
- Title: Linear representations in language models can change dramatically over a conversation
- Title(参考訳): 言語モデルにおける線形表現は会話中に劇的に変化する
- Authors: Andrew Kyle Lampinen, Yuxuan Li, Eghbal Hosseini, Sangnie Bhardwaj, Murray Shanahan,
- Abstract要約: 言語モデル表現は高次概念に対応する線形方向を含むことが多い。
線形表現は会話中に劇的に変化する。
また, 表象方向の操舵は, 会話の異なる点において, 劇的に異なる効果を持つことを示す。
- 参考スコア(独自算出の注目度): 12.34627880378922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model representations often contain linear directions that correspond to high-level concepts. Here, we study the dynamics of these representations: how representations evolve along these dimensions within the context of (simulated) conversations. We find that linear representations can change dramatically over a conversation; for example, information that is represented as factual at the beginning of a conversation can be represented as non-factual at the end and vice versa. These changes are content-dependent; while representations of conversation-relevant information may change, generic information is generally preserved. These changes are robust even for dimensions that disentangle factuality from more superficial response patterns, and occur across different model families and layers of the model. These representation changes do not require on-policy conversations; even replaying a conversation script written by an entirely different model can produce similar changes. However, adaptation is much weaker from simply having a sci-fi story in context that is framed more explicitly as such. We also show that steering along a representational direction can have dramatically different effects at different points in a conversation. These results are consistent with the idea that representations may evolve in response to the model playing a particular role that is cued by a conversation. Our findings may pose challenges for interpretability and steering -- in particular, they imply that it may be misleading to use static interpretations of features or directions, or probes that assume a particular range of features consistently corresponds to a particular ground-truth value. However, these types of representational dynamics also point to exciting new research directions for understanding how models adapt to context.
- Abstract(参考訳): 言語モデル表現は高次概念に対応する線形方向を含むことが多い。
ここでは、これらの表現のダイナミクスについて研究する: 表現は、(シミュレートされた)会話の文脈内で、これらの次元に沿ってどのように進化するか。
例えば、会話の開始時に事実として表現される情報は、最後には非事実として表現され、その逆も表現される。
これらの変更は内容に依存し、会話関連情報の表現は変更されるが、一般的な情報は一般に保存される。
これらの変化は、より表面的な応答パターンから事実性を遠ざけ、モデルの異なるモデルファミリや層にまたがって起こる次元に対しても堅牢である。
これらの表現の変更は、政治上の会話を必要としない。全く異なるモデルで書かれた会話スクリプトを再生しても、同様の変更が生じる。
しかし、適応は、より明確にフレーム化されている文脈において、単にSFストーリーを持つというよりは、はるかに弱い。
また, 表象方向の操舵は, 会話の異なる点において, 劇的に異なる効果を持つことを示す。
これらの結果は、表現が会話によって導かれる特定の役割を演じるモデルに応答して進化するという考えと一致している。
特に、特徴や方向の静的な解釈を使うことが誤解を招きかねないことや、特定の特徴の特定の範囲が一定の基底真理値に一貫して一致すると仮定するプローブがあることを示唆している。
しかし、このような表現力学は、モデルが文脈にどのように適応するかを理解するための新しい研究の方向性を示唆している。
関連論文リスト
- Emergence of Linear Truth Encodings in Language Models [64.86571541830598]
大規模言語モデルは偽文と真を区別する線形部分空間を示すが、それらの出現のメカニズムは不明確である。
このような真理部分空間をエンドツーエンドに再現する,透明な一層トランスフォーマー玩具モデルを導入する。
本研究では,真理エンコーディングが実現可能な単純な設定について検討し,将来のトークンにおけるLM損失を減らすために,この区別を学習するようモデルに促す。
論文 参考訳(メタデータ) (2025-10-17T16:30:07Z) - Counterfactual reasoning: an analysis of in-context emergence [57.118735341305786]
我々は、言語モデルが反実的推論が可能なことを示す。
自己注意、モデル深度、トレーニング済みデータの多様性によってパフォーマンスが向上することがわかった。
以上の結果から, SDE 動態下での反実的推論が可能となった。
論文 参考訳(メタデータ) (2025-06-05T16:02:07Z) - Gender Bias in Instruction-Guided Speech Synthesis Models [55.2480439325792]
本研究では、モデルが職業関連プロンプトをどのように解釈するかにおける潜在的な性別バイアスについて検討する。
このようなプロンプトを解釈する際に、これらのモデルがジェンダーステレオタイプを増幅する傾向を示すかどうかを検討する。
実験の結果, ある職業において, 性別偏見を示す傾向が示された。
論文 参考訳(メタデータ) (2025-02-08T17:38:24Z) - ICLR: In-Context Learning of Representations [19.331483579806623]
文脈の規模が拡大するにつれて、事前訓練された意味表現から、グラフ構造に整合した文脈内表現への突然の再構成が存在することを示す。
以上の結果から,拡張コンテキストサイズはモデル表現を柔軟に再構成し,新たな能力を解き放つ可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-29T18:58:09Z) - Representations as Language: An Information-Theoretic Framework for Interpretability [7.2129390689756185]
大規模ニューラルモデルは、幅広い言語的タスクにまたがる印象的なパフォーマンスを示す。
それにもかかわらず、それらは主にブラックボックスであり、解釈が難しい入力のベクトル表現を誘導する。
本稿では,モデルが文から表現へ学習するマッピングを,言語の一種として表現する,解釈可能性に対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-04T16:14:00Z) - Iconic Gesture Semantics [87.00251241246136]
ジェスチャーの視覚的象徴的モデルの知覚的分類において、情報評価は拡張的な例示(例示)として表される。
視覚コミュニケーションのインスタンスの知覚的分類は、Frege/Montagueフレームワークとは異なる意味の概念を必要とする。
モデル理論評価から動的セマンティックフレームワークにおける推論的解釈まで,ジェスチャ表現の全範囲をカバーするアイコン的ジェスチャセマンティクスが導入された。
論文 参考訳(メタデータ) (2024-04-29T13:58:03Z) - A Practical Method for Generating String Counterfactuals [106.98481791980367]
言語モデル(LM)の表現空間をターゲットとした介入は、モデル行動に影響を与える効果的な手段として現れてきた。
表現反事実を文字列反事実に変換する方法を提案する。
結果として生じるカウンターファクトは、データ拡張による分類のバイアスを軽減するために使用することができる。
論文 参考訳(メタデータ) (2024-02-17T18:12:02Z) - Probabilistic Transformer: A Probabilistic Dependency Model for
Contextual Word Representation [52.270712965271656]
本稿では,文脈表現の新しいモデルを提案する。
モデルのグラフは変換器に似ており、依存関係と自己意識の対応性がある。
実験により,本モデルが小型・中型データセットのトランスフォーマーと競合することを示す。
論文 参考訳(メタデータ) (2023-11-26T06:56:02Z) - Psychologically-informed chain-of-thought prompts for metaphor
understanding in large language models [29.993190226231793]
我々はチェーン・オブ・シント・プロンプトを使って確率モデルから大きな言語モデルに構造を導入する。
我々のプロンプトは、メタファーの適切なパラフレーズを選択するために、言語モデルに潜伏変数を推論し、それらの関係を推論する。
論文 参考訳(メタデータ) (2022-09-16T19:23:13Z) - Lost in Context? On the Sense-wise Variance of Contextualized Word
Embeddings [11.475144702935568]
各単語感覚の文脈的埋め込みが、典型的な事前学習モデルにおける文脈によってどの程度異なるかを定量化する。
単語表現は位置バイアスを受けており、異なる文脈における最初の単語はより類似する傾向にある。
論文 参考訳(メタデータ) (2022-08-20T12:27:25Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis [68.76620947298595]
テキストは音声形式を完全には規定しないので、テキストから音声へのモデルは、対応するテキストで説明されない方法で異なる音声データから学習できなければならない。
韻律の3つの一次音響相関に明示的に条件付けされた音声を生成するモデルを提案する。
論文 参考訳(メタデータ) (2021-06-15T18:03:48Z) - Implicit Representations of Meaning in Neural Language Models [31.71898809435222]
会話を通して進化する実体や状況のモデルとして機能する文脈表現を同定する。
その結果,事前学習されたニューラルネットワークモデルにおける予測は,少なくとも部分的には,意味の動的表現と実体状態の暗黙的なシミュレーションによって支持されていることが示唆された。
論文 参考訳(メタデータ) (2021-06-01T19:23:20Z) - Assessing Phrasal Representation and Composition in Transformers [13.460125148455143]
ディープトランスモデルはNLPタスクのパフォーマンスを新たな限界に押し上げた。
本稿では,最先端の事前学習型トランスにおけるフレーズ表現の系統的解析を行う。
これらのモデルにおける句表現は、単語の内容に大きく依存しており、ニュアンスな構成の証拠はほとんどない。
論文 参考訳(メタデータ) (2020-10-08T04:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。