論文の概要: Analogical Reasoning Inside Large Language Models: Concept Vectors and the Limits of Abstraction
- arxiv url: http://arxiv.org/abs/2503.03666v1
- Date: Wed, 05 Mar 2025 16:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:53:29.204695
- Title: Analogical Reasoning Inside Large Language Models: Concept Vectors and the Limits of Abstraction
- Title(参考訳): 大規模言語モデルにおける解析的推論:概念ベクトルと抽象の限界
- Authors: Gustaw Opiełka, Hannes Rosenbusch, Claire E. Stevenson,
- Abstract要約: 関数ベクトル(FV)は単純な入力変化に不変ではないことを示し、純粋概念以上を捉えることを示唆する。
我々は「匿名」のような動詞の概念に対して不変概念ベクトル(CV)を符号化する小さな注意ヘッドの集合をローカライズする。
CVは最終的な出力とは独立して動作する特徴検出器として機能する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Analogical reasoning relies on conceptual abstractions, but it is unclear whether Large Language Models (LLMs) harbor such internal representations. We explore distilled representations from LLM activations and find that function vectors (FVs; Todd et al., 2024) - compact representations for in-context learning (ICL) tasks - are not invariant to simple input changes (e.g., open-ended vs. multiple-choice), suggesting they capture more than pure concepts. Using representational similarity analysis (RSA), we localize a small set of attention heads that encode invariant concept vectors (CVs) for verbal concepts like "antonym". These CVs function as feature detectors that operate independently of the final output - meaning that a model may form a correct internal representation yet still produce an incorrect output. Furthermore, CVs can be used to causally guide model behaviour. However, for more abstract concepts like "previous" and "next", we do not observe invariant linear representations, a finding we link to generalizability issues LLMs display within these domains.
- Abstract(参考訳): 解析的推論は概念的抽象化に依存しているが、Large Language Models (LLM) がそのような内部表現を持つかどうかは不明である。
LLMアクティベーションから蒸留された表現を探索し、関数ベクトル(FVs; Todd et al , 2024) - コンテキスト内学習(ICL)タスクのコンパクト表現は、単純な入力変化(例えば、オープンエンド対多重選択)には不変ではないことを発見し、純粋概念以上を捉えることを示唆する。
表現類似性分析(RSA)を用いて,無変量概念ベクトル(CV)を「匿名」のような言語概念にエンコードする注意ヘッドの小さなセットを同定する。
これらのCVは最終的な出力とは独立して動作する特徴検出器として機能する。
さらに、CVはモデル動作を因果的にガイドするために使用することができる。
しかし、"previous" や "next" のようなより抽象的な概念では、不変線型表現は観察できない。
関連論文リスト
- Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - Transforming Hidden States into Binary Semantic Features [0.0]
我々は再び意味の分布論を採用することを提案する。
独立成分分析を用いて、その難易度を克服し、大きな言語モデルがそれらの隠れ状態における意味的特徴を表現することを示す。
論文 参考訳(メタデータ) (2024-09-29T22:23:52Z) - States Hidden in Hidden States: LLMs Emerge Discrete State Representations Implicitly [72.24742240125369]
本稿では,チェーン・オブ・ステップ・バイ・ステップの解に頼らずに,拡張された計算列を実行する本質的な能力を明らかにする。
注目すべきは、最も先進的なモデルでは、2桁の加算結果を直接出力できることだ。
論文 参考訳(メタデータ) (2024-07-16T06:27:22Z) - On the Tip of the Tongue: Analyzing Conceptual Representation in Large
Language Models with Reverse-Dictionary Probe [36.65834065044746]
我々は、言語記述に暗示される対象概念の用語を生成するために、文脈内学習を用いてモデルを誘導する。
実験結果から,逆ディファレンシャルタスクによって探索された概念推論能力は,モデルの一般的な推論性能を予測することが示唆された。
論文 参考訳(メタデータ) (2024-02-22T09:45:26Z) - Meaning Representations from Trajectories in Autoregressive Models [106.63181745054571]
入力テキストを拡張可能なすべてのトラジェクトリの分布を考慮し,自己回帰言語モデルから意味表現を抽出する。
この戦略はプロンプトフリーであり、微調整は必要とせず、事前訓練された自己回帰モデルにも適用できる。
我々は,大規模なモデルから得られた表現が人間のアノテーションとよく一致し,意味的類似性タスクにおける他のゼロショットおよびプロンプトフリーメソッドよりも優れており,標準埋め込みが扱えないより複雑なエンタテインメントや包含タスクの解決に使用できることを実証的に示す。
論文 参考訳(メタデータ) (2023-10-23T04:35:58Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Interpretability in the Wild: a Circuit for Indirect Object
Identification in GPT-2 small [68.879023473838]
間接オブジェクト識別 (IOI) と呼ばれる自然言語タスクにおいて, GPT-2 の小型化が果たす役割について解説する。
我々の知る限り、この調査は言語モデルにおいて「野生」の自然な振る舞いをリバースエンジニアリングする最大のエンドツーエンドの試みである。
論文 参考訳(メタデータ) (2022-11-01T17:08:44Z) - Contrastive Corpus Attribution for Explaining Representations [17.07084455770185]
ほとんどの説明手法はスカラーモデルの出力を説明する。
最近の研究はスカラーの説明出力を定義しており、説明されているサンプルの表現空間におけるドット積に基づく類似性を定義している。
本稿では,新規で意味のあるスカラー説明出力であるコントラストコーパス類似性を提案する。
論文 参考訳(メタデータ) (2022-09-30T21:59:10Z) - Self-Supervised Learning Disentangled Group Representation as Feature [82.07737719232972]
既存の自己監督学習(SSL)は、回転や着色などの単純な拡張機能のみを分解することを示す。
反復的分割に基づく不変リスク最小化(IP-IRM)を提案する。
我々は、IP-IRMが完全に不整合表現に収束し、様々なベンチマークでその効果を示すことを証明した。
論文 参考訳(メタデータ) (2021-10-28T16:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。