論文の概要: Latent Concept Disentanglement in Transformer-based Language Models
- arxiv url: http://arxiv.org/abs/2506.16975v1
- Date: Fri, 20 Jun 2025 13:08:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.459775
- Title: Latent Concept Disentanglement in Transformer-based Language Models
- Title(参考訳): 変圧器に基づく言語モデルにおける潜在概念の絡み合い
- Authors: Guan Zhe Hong, Bhavya Vasudeva, Vatsal Sharan, Cyrus Rashtchian, Prabhakar Raghavan, Rina Panigrahy,
- Abstract要約: 大規模言語モデル(LLM)では、新しいタスクを解くためにコンテキスト内学習(ICL)を使用し、中核的で潜伏した概念を把握しているように見える。
このことは、トランスフォーマーが計算の一部として潜伏構造を表現するのか、あるいは問題を解くためにショートカットを取るのかという疑問を提起する。
そこで本研究では,2ホップ推論タスクにおいて,潜在概念の識別に成功し,ステップバイステップの概念構成を行うことを示す。
- 参考スコア(独自算出の注目度): 11.948476276466726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When large language models (LLMs) use in-context learning (ICL) to solve a new task, they seem to grasp not only the goal of the task but also core, latent concepts in the demonstration examples. This begs the question of whether transformers represent latent structures as part of their computation or whether they take shortcuts to solve the problem. Prior mechanistic work on ICL does not address this question because it does not sufficiently examine the relationship between the learned representation and the latent concept, and the considered problem settings often involve only single-step reasoning. In this work, we examine how transformers disentangle and use latent concepts. We show that in 2-hop reasoning tasks with a latent, discrete concept, the model successfully identifies the latent concept and does step-by-step concept composition. In tasks parameterized by a continuous latent concept, we find low-dimensional subspaces in the representation space where the geometry mimics the underlying parameterization. Together, these results refine our understanding of ICL and the representation of transformers, and they provide evidence for highly localized structures in the model that disentangle latent concepts in ICL tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)が新しいタスクを解くためにコンテキスト内学習(ICL)を使用する場合、そのタスクの目的だけでなく、デモの例では中核的で潜在的な概念も理解しているようである。
このことは、トランスフォーマーが計算の一部として潜伏構造を表現するのか、あるいは問題を解くためにショートカットを取るのかという疑問を提起する。
ICLの以前の力学的な研究は、学習された表現と潜在概念の関係を十分に調べていないため、この問題に対処していない。
本研究では,変圧器のゆがみと潜在概念の利用について検討する。
そこで本研究では,2ホップ推論タスクにおいて,潜在概念の識別に成功し,ステップバイステップの概念構成を行うことを示す。
連続潜在概念によってパラメータ化されるタスクにおいて、幾何学が基礎となるパラメータ化を模倣する表現空間において、低次元部分空間が見つかる。
これらの結果とともに、ICLの理解とトランスフォーマーの表現を洗練させ、ICLタスクにおける潜在概念を歪ませるモデルにおいて、高度に局所化された構造を示す証拠を提供する。
関連論文リスト
- Concept Layers: Enhancing Interpretability and Intervenability via LLM Conceptualization [2.163881720692685]
本稿では,概念層をアーキテクチャに組み込むことにより,解釈可能性とインターベンタビリティを既存モデルに組み込む新しい手法を提案する。
我々のアプローチは、モデルの内部ベクトル表現を、再構成してモデルにフィードバックする前に、概念的で説明可能なベクトル空間に投影する。
複数のタスクにまたがるCLを評価し、本来のモデルの性能と合意を維持しつつ、意味のある介入を可能にしていることを示す。
論文 参考訳(メタデータ) (2025-02-19T11:10:19Z) - Mechanistic Unveiling of Transformer Circuits: Self-Influence as a Key to Model Reasoning [9.795934690403374]
このような課題を解決するために言語モデルでどのような多段階推論機構が使われているのかはいまだ不明である。
回路解析と自己影響関数を用いて、推論過程を通して各トークンの変動の重要性を評価する。
提案手法は,モデルが使用する人間の解釈可能な推論過程を明らかにする。
論文 参考訳(メタデータ) (2025-02-13T07:19:05Z) - Sparse autoencoders reveal selective remapping of visual concepts during adaptation [54.82630842681845]
特定の目的のために基礎モデルを適用することは、機械学習システムを構築するための標準的なアプローチとなっている。
PatchSAEと呼ばれるCLIPビジョントランスのための新しいスパースオートエンコーダ(SAE)を開発し、解釈可能な概念を抽出する。
論文 参考訳(メタデータ) (2024-12-06T18:59:51Z) - Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。
この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文 参考訳(メタデータ) (2024-11-04T15:54:32Z) - Identifying Linear Relational Concepts in Large Language Models [16.917379272022064]
トランスフォーマー言語モデル(LM)は、隠れたアクティベーションの潜在空間における方向として概念を表現することが示されている。
本稿では,リレーショナル・リレーショナル・コンセプト (LRC) と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2023-11-15T14:01:41Z) - Interpretable Visual Reasoning via Induced Symbolic Space [75.95241948390472]
視覚的推論における概念誘導の問題,すなわち,画像に関連付けられた質問応答対から概念とその階層的関係を同定する。
我々はまず,オブジェクトレベルの視覚的特徴を持つ視覚的推論タスクを実行するために,オブジェクト指向合成注意モデル(OCCAM)という新しいフレームワークを設計する。
そこで我々は,対象の視覚的特徴と質問語の間の注意パターンから手がかりを用いて,対象と関係の概念を誘導する手法を考案した。
論文 参考訳(メタデータ) (2020-11-23T18:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。