論文の概要: Analyze the Neurons, not the Embeddings: Understanding When and Where LLM Representations Align with Humans
- arxiv url: http://arxiv.org/abs/2502.15090v2
- Date: Fri, 18 Jul 2025 20:48:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 18:47:38.850587
- Title: Analyze the Neurons, not the Embeddings: Understanding When and Where LLM Representations Align with Humans
- Title(参考訳): 埋め込みではなくニューロンを解析する:LLM表現の時と場所を理解する
- Authors: Masha Fedzechkina, Eleonora Gualdoni, Sinead Williamson, Katherine Metcalf, Skyler Seto, Barry-John Theobald,
- Abstract要約: 表現のアライメントを研究するための新しいアプローチを提案する。
我々は、特定の概念に責任を持つニューロンを特定するために、アクティベーションステアリングの研究からの手法を採用する。
この方法で得られたLCM表現は、行動データから推定される人間の表現と密接に一致している。
- 参考スコア(独自算出の注目度): 3.431979707540646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large language models (LLMs) achieve impressive performance on some tasks, while exhibiting distinctly non-human-like behaviors on others. This raises the question of how well the LLM's learned representations align with human representations. In this work, we introduce a novel approach to study representation alignment: we adopt a method from research on activation steering to identify neurons responsible for specific concepts (e.g., ''cat'') and then analyze the corresponding activation patterns. We find that LLM representations captured this way closely align with human representations inferred from behavioral data, matching inter-human alignment levels. Our approach significantly outperforms the alignment captured by word embeddings, which have been the focus of prior work on human-LLM alignment. Additionally, our approach enables a more granular view of how LLMs represent concepts -- we show that LLMs organize concepts in a way that mirrors human concept organization.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)は、あるタスクにおいて印象的なパフォーマンスを達成する一方で、他のタスクに対して明らかに非人間的な振る舞いを示す。
このことは、LLMの学習された表現がいかに人間の表現と一致しているかという疑問を提起する。
本研究では,特定の概念(例えば,「猫」)に責任を持つニューロンを同定し,対応する活性化パターンを解析するために,アクティベーションステアリング研究の手法を採用する。
LLM表現は、行動データから推定される人間の表現と密接に一致し、人間同士のアライメントレベルが一致することが判明した。
本手法は,人-LLMアライメントにおける先行研究の焦点である単語埋め込みによるアライメントよりも優れていた。
さらに、私たちのアプローチでは、LLMが概念をどのように表現しているかのより詳細なビューを可能にします。
関連論文リスト
- Localizing Persona Representations in LLMs [5.828323647048382]
大規模言語モデル(LLM)の表現空間におけるペルソナのエンコード方法と場所について検討する。
我々は、道徳的ニヒリズムや実用主義など、特定の倫理的観点で重なるアクティベーションを観察する。
対照的に、保守主義や自由主義のような政治的イデオロギーは、より異なる地域で表現されているようである。
論文 参考訳(メタデータ) (2025-05-30T12:46:44Z) - From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning [52.32745233116143]
人間は知識をセマンティック圧縮によってコンパクトなカテゴリに分類する。
大規模言語モデル(LLM)は、顕著な言語能力を示す。
しかし、その内部表現が、圧縮と意味的忠実性の間の人間のようなトレードオフにぶつかるかどうかは不明だ。
論文 参考訳(メタデータ) (2025-05-21T16:29:00Z) - Multimodal LLM Augmented Reasoning for Interpretable Visual Perception Analysis [19.032828729570458]
我々は、人間の視覚知覚における複雑さに関連する心理学と認知科学の確立した原理と説明を用いる。
本研究の目的は、視覚知覚に関連する様々な説明可能性原理をMLLMにベンチマークすることである。
論文 参考訳(メタデータ) (2025-04-16T22:14:27Z) - Waking Up an AI: A Quantitative Framework for Prompt-Induced Phase Transition in Large Language Models [0.0]
直感的な人間の思考の根底にあるものを研究するための2部構成の枠組みを提案する。
意味的に融合したプロンプトと非融合したプロンプトの応答性に有意な差は認められなかった。
我々の手法は、人工心と人間の心において、直観と概念的な跳躍がどのように現われるかにおいて重要な違いを照明するのに役立ちます。
論文 参考訳(メタデータ) (2025-04-16T06:49:45Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [79.01538178959726]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表される人間の解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - How Deep is Love in LLMs' Hearts? Exploring Semantic Size in Human-like Cognition [75.11808682808065]
本研究では,大言語モデル (LLM) が意味的サイズを理解する上で類似した傾向を示すかどうかを検討する。
以上の結果から,マルチモーダルトレーニングはLLMにとって人間的な理解を深める上で不可欠であることが示唆された。
最後に,LLMが実世界のWebショッピングシナリオにおいて,より大きなセマンティックサイズを持つ注目の見出しに影響されているかを検討する。
論文 参考訳(メタデータ) (2025-03-01T03:35:56Z) - Human-like conceptual representations emerge from language prediction [72.5875173689788]
大型言語モデル(LLM)における人間に似た概念表現の出現について検討した。
その結果、LLMは定義記述から概念を推論し、共有された文脈に依存しない構造に収束する表現空間を構築することができた。
我々の研究は、LLMが複雑な人間の認知を理解するための貴重なツールであり、人工知能と人間の知能の整合性を高めるための道を開くという見解を支持している。
論文 参考訳(メタデータ) (2025-01-21T23:54:17Z) - Large Language Models as Neurolinguistic Subjects: Identifying Internal Representations for Form and Meaning [49.60849499134362]
本研究では,大言語モデル(LLM)の記号化(形式)および記号化(意味)に関する言語的理解について検討する。
伝統的な精神言語学的評価は、しばしばLSMの真の言語能力を誤って表現する統計バイアスを反映している。
ミニマルペアと診断プローブを組み合わせてモデル層間のアクティベーションパターンを解析する新しい手法を用いて,ニューロ言語学的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-12T04:16:44Z) - Mind Scramble: Unveiling Large Language Model Psychology Via Typoglycemia [27.650551131885152]
大規模言語モデル(LLM)の研究は、物理世界の複雑なタスクに対処する上で有望であることを示している。
GPT-4のような強力なLDMは、人間のような認知能力を示し始めていることが研究で示唆されている。
論文 参考訳(メタデータ) (2024-10-02T15:47:25Z) - Understanding the Human-LLM Dynamic: A Literature Survey of LLM Use in Programming Tasks [0.850206009406913]
大規模言語モデル(LLM)はプログラミングプラクティスを変革し、コード生成活動に重要な機能を提供する。
本稿では,LLMがプログラミングタスクに与える影響を評価するユーザスタディから洞察を得た上で,プログラミングタスクにおけるそれらの使用に焦点を当てる。
論文 参考訳(メタデータ) (2024-10-01T19:34:46Z) - Human-like object concept representations emerge naturally in multimodal large language models [24.003766123531545]
大規模言語モデル(LLM)における対象概念表現と人間の認知との関係を考察するために,行動解析と神経画像解析を併用した。
我々の発見は、マシンインテリジェンスに対する理解を深め、より人間的な人工知能システムの開発に報いる。
論文 参考訳(メタデータ) (2024-07-01T08:17:19Z) - Divergences between Language Models and Human Brains [59.100552839650774]
我々は,人間と機械語処理の相違点を体系的に探求する。
我々は、LMがうまく捉えられない2つの領域、社会的/感情的知性と身体的常識を識別する。
以上の結果から,これらの領域における微調整LMは,ヒト脳反応との整合性を向上させることが示唆された。
論文 参考訳(メタデータ) (2023-11-15T19:02:40Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Towards Concept-Aware Large Language Models [56.48016300758356]
概念は、学習、推論、コミュニケーションなど、様々な人間の認知機能において重要な役割を果たす。
概念を形作り、推論する能力を持つ機械を授けることは、ほとんどない。
本研究では,現代における大規模言語モデル(LLM)が,人間の概念とその構造をどのように捉えているかを分析する。
論文 参考訳(メタデータ) (2023-11-03T12:19:22Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - Human Behavioral Benchmarking: Numeric Magnitude Comparison Effects in
Large Language Models [4.412336603162406]
大規模言語モデル(LLM)は、テキストで広まる数値を差分表現しない。
本研究では,LLMが行動レンズからどれだけの数の数値を捉えているかを検討する。
論文 参考訳(メタデータ) (2023-05-18T07:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。