論文の概要: Analyze the Neurons, not the Embeddings: Understanding When and Where LLM Representations Align with Humans
- arxiv url: http://arxiv.org/abs/2502.15090v1
- Date: Thu, 20 Feb 2025 23:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:11:14.599634
- Title: Analyze the Neurons, not the Embeddings: Understanding When and Where LLM Representations Align with Humans
- Title(参考訳): 埋め込みではなくニューロンを解析する:LLM表現の時と場所を理解する
- Authors: Masha Fedzechkina, Eleonora Gualdoni, Sinead Williamson, Katherine Metcalf, Skyler Seto, Barry-John Theobald,
- Abstract要約: この研究は、表現アライメントの研究に新しいアプローチを導入している。
我々は、特定の概念に責任を持つニューロンを特定するために、アクティベーションステアリングの研究からの手法を採用する。
その結果,LLM表現は行動データから推定される人間の表現と密接に一致していることが判明した。
- 参考スコア(独自算出の注目度): 3.431979707540646
- License:
- Abstract: Modern large language models (LLMs) achieve impressive performance on some tasks, while exhibiting distinctly non-human-like behaviors on others. This raises the question of how well the LLM's learned representations align with human representations. In this work, we introduce a novel approach to the study of representation alignment: we adopt a method from research on activation steering to identify neurons responsible for specific concepts (e.g., 'cat') and then analyze the corresponding activation patterns. Our findings reveal that LLM representations closely align with human representations inferred from behavioral data. Notably, this alignment surpasses that of word embeddings, which have been center stage in prior work on human and model alignment. Additionally, our approach enables a more granular view of how LLMs represent concepts. Specifically, we show that LLMs organize concepts in a way that reflects hierarchical relationships interpretable to humans (e.g., 'animal'-'dog').
- Abstract(参考訳): 現代の大規模言語モデル(LLM)は、あるタスクにおいて印象的なパフォーマンスを達成する一方で、他のタスクに対して明らかに非人間的な振る舞いを示す。
このことは、LLMの学習された表現がいかに人間の表現と一致しているかという疑問を提起する。
本研究では,特定の概念(例えば,「キャット」)に責任を持つニューロンを同定し,対応する活性化パターンを解析するために,アクティベーションステアリングの研究の手法を採用する。
その結果,LLM表現は行動データから推定される人間の表現と密接に一致していることが判明した。
このアライメントは、人間のアライメントとモデルアライメントの先行研究の中心的な段階である単語埋め込みよりも優れている。
さらに,本手法により,LLMが概念をどう表現するかを,より詳細に把握することができる。
具体的には、LLMが人間に解釈可能な階層的関係(例:「動物」-「犬」)を反映した概念を整理することを示した。
関連論文リスト
- Human-like conceptual representations emerge from language prediction [72.5875173689788]
大型言語モデル(LLM)における人間に似た概念表現の出現について検討した。
その結果、LLMは定義記述から概念を推論し、共有された文脈に依存しない構造に収束する表現空間を構築することができた。
我々の研究は、LLMが複雑な人間の認知を理解するための貴重なツールであり、人工知能と人間の知能の整合性を高めるための道を開くという見解を支持している。
論文 参考訳(メタデータ) (2025-01-21T23:54:17Z) - Large Language Models as Neurolinguistic Subjects: Identifying Internal Representations for Form and Meaning [49.60849499134362]
本研究では,大言語モデル(LLM)の記号化(形式)および記号化(意味)に関する言語的理解について検討する。
伝統的な精神言語学的評価は、しばしばLSMの真の言語能力を誤って表現する統計バイアスを反映している。
ミニマルペアと診断プローブを組み合わせてモデル層間のアクティベーションパターンを解析する新しい手法を用いて,ニューロ言語学的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-12T04:16:44Z) - Mind Scramble: Unveiling Large Language Model Psychology Via Typoglycemia [27.650551131885152]
大規模言語モデル(LLM)の研究は、物理世界の複雑なタスクに対処する上で有望であることを示している。
GPT-4のような強力なLDMは、人間のような認知能力を示し始めていることが研究で示唆されている。
論文 参考訳(メタデータ) (2024-10-02T15:47:25Z) - Human-like object concept representations emerge naturally in multimodal large language models [24.003766123531545]
大規模言語モデルにおける対象概念の表現が人間とどのように関連しているかを明らかにするために,行動解析と神経画像解析を併用した。
その結果,66次元の埋め込みは非常に安定で予測的であり,人間の心的表現に類似したセマンティッククラスタリングが認められた。
本研究は、機械知能の理解を深め、より人間的な人工知能システムの開発を知らせるものである。
論文 参考訳(メタデータ) (2024-07-01T08:17:19Z) - Instruction-tuning Aligns LLMs to the Human Brain [19.450164922129723]
命令チューニングが大規模言語モデルと人間の言語処理機構の整合性に及ぼす影響について検討する。
インストラクションチューニングは一般に脳のアライメントを高めるが、行動アライメントに類似した影響はない。
LLMにおける世界知識を符号化するメカニズムは、人間の脳への表現的アライメントを改善することも示唆している。
論文 参考訳(メタデータ) (2023-12-01T13:31:02Z) - Divergences between Language Models and Human Brains [59.100552839650774]
我々は,人間と機械語処理の相違点を体系的に探求する。
我々は、LMがうまく捉えられない2つの領域、社会的/感情的知性と身体的常識を識別する。
以上の結果から,これらの領域における微調整LMは,ヒト脳反応との整合性を向上させることが示唆された。
論文 参考訳(メタデータ) (2023-11-15T19:02:40Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Towards Concept-Aware Large Language Models [56.48016300758356]
概念は、学習、推論、コミュニケーションなど、様々な人間の認知機能において重要な役割を果たす。
概念を形作り、推論する能力を持つ機械を授けることは、ほとんどない。
本研究では,現代における大規模言語モデル(LLM)が,人間の概念とその構造をどのように捉えているかを分析する。
論文 参考訳(メタデータ) (2023-11-03T12:19:22Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - Human Behavioral Benchmarking: Numeric Magnitude Comparison Effects in
Large Language Models [4.412336603162406]
大規模言語モデル(LLM)は、テキストで広まる数値を差分表現しない。
本研究では,LLMが行動レンズからどれだけの数の数値を捉えているかを検討する。
論文 参考訳(メタデータ) (2023-05-18T07:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。