論文の概要: Analyze the Neurons, not the Embeddings: Understanding When and Where LLM Representations Align with Humans
- arxiv url: http://arxiv.org/abs/2502.15090v2
- Date: Fri, 18 Jul 2025 20:48:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 18:47:38.850587
- Title: Analyze the Neurons, not the Embeddings: Understanding When and Where LLM Representations Align with Humans
- Title(参考訳): 埋め込みではなくニューロンを解析する:LLM表現の時と場所を理解する
- Authors: Masha Fedzechkina, Eleonora Gualdoni, Sinead Williamson, Katherine Metcalf, Skyler Seto, Barry-John Theobald,
- Abstract要約: 表現のアライメントを研究するための新しいアプローチを提案する。
我々は、特定の概念に責任を持つニューロンを特定するために、アクティベーションステアリングの研究からの手法を採用する。
この方法で得られたLCM表現は、行動データから推定される人間の表現と密接に一致している。
- 参考スコア(独自算出の注目度): 3.431979707540646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large language models (LLMs) achieve impressive performance on some tasks, while exhibiting distinctly non-human-like behaviors on others. This raises the question of how well the LLM's learned representations align with human representations. In this work, we introduce a novel approach to study representation alignment: we adopt a method from research on activation steering to identify neurons responsible for specific concepts (e.g., ''cat'') and then analyze the corresponding activation patterns. We find that LLM representations captured this way closely align with human representations inferred from behavioral data, matching inter-human alignment levels. Our approach significantly outperforms the alignment captured by word embeddings, which have been the focus of prior work on human-LLM alignment. Additionally, our approach enables a more granular view of how LLMs represent concepts -- we show that LLMs organize concepts in a way that mirrors human concept organization.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)は、あるタスクにおいて印象的なパフォーマンスを達成する一方で、他のタスクに対して明らかに非人間的な振る舞いを示す。
このことは、LLMの学習された表現がいかに人間の表現と一致しているかという疑問を提起する。
本研究では,特定の概念(例えば,「猫」)に責任を持つニューロンを同定し,対応する活性化パターンを解析するために,アクティベーションステアリング研究の手法を採用する。
LLM表現は、行動データから推定される人間の表現と密接に一致し、人間同士のアライメントレベルが一致することが判明した。
本手法は,人-LLMアライメントにおける先行研究の焦点である単語埋め込みによるアライメントよりも優れていた。
さらに、私たちのアプローチでは、LLMが概念をどのように表現しているかのより詳細なビューを可能にします。
関連論文リスト
- What if Agents Could Imagine? Reinforcing Open-Vocabulary HOI Comprehension through Generation [35.62323084880028]
我々は,認知的推論と生成的想像とを調和させて,堅牢な視覚的理解を実現するエージェントフレームワークであるtextbfImagineAgentを提案する。
提案手法は,検出された実体と候補行動との間の可視的関係を明示的にモデル化する認知マップを革新的に構築する。
検索強化、画像トリミング、拡散モデルなどのツールを動的に起動し、ドメイン固有の知識を集め、視覚的証拠を充実させる。
論文 参考訳(メタデータ) (2026-02-12T02:51:59Z) - ForenX: Towards Explainable AI-Generated Image Detection with Multimodal Large Language Models [82.04858317800097]
ForenXは画像の真正性を識別するだけでなく、人間の思考に共鳴する説明を提供する新しい手法である。
ForenXは、強力なマルチモーダル大言語モデル(MLLM)を使用して、法医学的な手がかりを分析し、解釈する。
本稿では,AI生成画像における偽証拠の記述専用のデータセットであるForgReasonを紹介する。
論文 参考訳(メタデータ) (2025-08-02T15:21:26Z) - Localizing Persona Representations in LLMs [5.828323647048382]
大規模言語モデル(LLM)の表現空間におけるペルソナのエンコード方法と場所について検討する。
我々は、道徳的ニヒリズムや実用主義など、特定の倫理的観点で重なるアクティベーションを観察する。
対照的に、保守主義や自由主義のような政治的イデオロギーは、より異なる地域で表現されているようである。
論文 参考訳(メタデータ) (2025-05-30T12:46:44Z) - From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning [52.32745233116143]
人間は知識をセマンティック圧縮によってコンパクトなカテゴリに分類する。
大規模言語モデル(LLM)は、顕著な言語能力を示す。
しかし、その内部表現が、圧縮と意味的忠実性の間の人間のようなトレードオフにぶつかるかどうかは不明だ。
論文 参考訳(メタデータ) (2025-05-21T16:29:00Z) - Multimodal LLM Augmented Reasoning for Interpretable Visual Perception Analysis [19.032828729570458]
我々は、人間の視覚知覚における複雑さに関連する心理学と認知科学の確立した原理と説明を用いる。
本研究の目的は、視覚知覚に関連する様々な説明可能性原理をMLLMにベンチマークすることである。
論文 参考訳(メタデータ) (2025-04-16T22:14:27Z) - Waking Up an AI: A Quantitative Framework for Prompt-Induced Phase Transition in Large Language Models [0.0]
直感的な人間の思考の根底にあるものを研究するための2部構成の枠組みを提案する。
意味的に融合したプロンプトと非融合したプロンプトの応答性に有意な差は認められなかった。
我々の手法は、人工心と人間の心において、直観と概念的な跳躍がどのように現われるかにおいて重要な違いを照明するのに役立ちます。
論文 参考訳(メタデータ) (2025-04-16T06:49:45Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [79.01538178959726]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表される人間の解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - How Deep is Love in LLMs' Hearts? Exploring Semantic Size in Human-like Cognition [75.11808682808065]
本研究では,大言語モデル (LLM) が意味的サイズを理解する上で類似した傾向を示すかどうかを検討する。
以上の結果から,マルチモーダルトレーニングはLLMにとって人間的な理解を深める上で不可欠であることが示唆された。
最後に,LLMが実世界のWebショッピングシナリオにおいて,より大きなセマンティックサイズを持つ注目の見出しに影響されているかを検討する。
論文 参考訳(メタデータ) (2025-03-01T03:35:56Z) - Human-like conceptual representations emerge from language prediction [72.5875173689788]
大型言語モデル(LLM)における人間に似た概念表現の出現について検討した。
その結果、LLMは定義記述から概念を推論し、共有された文脈に依存しない構造に収束する表現空間を構築することができた。
我々の研究は、LLMが複雑な人間の認知を理解するための貴重なツールであり、人工知能と人間の知能の整合性を高めるための道を開くという見解を支持している。
論文 参考訳(メタデータ) (2025-01-21T23:54:17Z) - Large Language Models as Neurolinguistic Subjects: Identifying Internal Representations for Form and Meaning [49.60849499134362]
本研究では,大言語モデル(LLM)の記号化(形式)および記号化(意味)に関する言語的理解について検討する。
伝統的な精神言語学的評価は、しばしばLSMの真の言語能力を誤って表現する統計バイアスを反映している。
ミニマルペアと診断プローブを組み合わせてモデル層間のアクティベーションパターンを解析する新しい手法を用いて,ニューロ言語学的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-12T04:16:44Z) - Probing Ranking LLMs: A Mechanistic Analysis for Information Retrieval [20.353393773305672]
我々は、LLMのランク付けにおけるニューロンの活性化を調べるために、探索に基づく分析を用いる。
本研究は,語彙信号,文書構造,問合せ文書間相互作用,複雑な意味表現など,幅広い機能カテゴリにまたがる。
我々の発見は、より透明で信頼性の高い検索システムを開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-10-24T08:20:10Z) - Mind Scramble: Unveiling Large Language Model Psychology Via Typoglycemia [27.650551131885152]
大規模言語モデル(LLM)の研究は、物理世界の複雑なタスクに対処する上で有望であることを示している。
GPT-4のような強力なLDMは、人間のような認知能力を示し始めていることが研究で示唆されている。
論文 参考訳(メタデータ) (2024-10-02T15:47:25Z) - Understanding the Human-LLM Dynamic: A Literature Survey of LLM Use in Programming Tasks [0.850206009406913]
大規模言語モデル(LLM)はプログラミングプラクティスを変革し、コード生成活動に重要な機能を提供する。
本稿では,LLMがプログラミングタスクに与える影響を評価するユーザスタディから洞察を得た上で,プログラミングタスクにおけるそれらの使用に焦点を当てる。
論文 参考訳(メタデータ) (2024-10-01T19:34:46Z) - Human-like object concept representations emerge naturally in multimodal large language models [24.003766123531545]
大規模言語モデル(LLM)における対象概念表現と人間の認知との関係を考察するために,行動解析と神経画像解析を併用した。
我々の発見は、マシンインテリジェンスに対する理解を深め、より人間的な人工知能システムの開発に報いる。
論文 参考訳(メタデータ) (2024-07-01T08:17:19Z) - Understanding Large Language Model Behaviors through Interactive Counterfactual Generation and Analysis [22.755345889167934]
本稿では,大規模言語モデル (LLM) の対実解析による探索を可能にする対話型可視化システムを提案する。
本システムは,意味論的に意味のある反事実を生成する新しいアルゴリズムを特徴とする。
LLM実践者とのユーザスタディと専門家とのインタビューは、システムのユーザビリティと有効性を示している。
論文 参考訳(メタデータ) (2024-04-23T19:57:03Z) - Interpretable Brain-Inspired Representations Improve RL Performance on
Visual Navigation Tasks [0.0]
本研究では,視覚データの解釈可能な表現を生成することにより,遅い特徴解析(SFA)の手法が両方の制約を克服することを示す。
我々はSFAを現代の強化学習の文脈で採用し、表現を分析し比較し、階層的なSFAがナビゲーションタスクにおいて他の特徴抽出器よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-19T11:35:01Z) - Understanding Before Recommendation: Semantic Aspect-Aware Review Exploitation via Large Language Models [53.337728969143086]
レコメンデーションシステムは、クリックやレビューのようなユーザとイテムのインタラクションを利用して表現を学習する。
従来の研究では、様々な側面や意図にまたがるユーザの嗜好をモデル化することで、推奨精度と解釈可能性を改善する。
そこで本研究では,意味的側面と認識的相互作用を明らかにするためのチェーンベースのプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T15:44:09Z) - Divergences between Language Models and Human Brains [59.100552839650774]
我々は,人間と機械語処理の相違点を体系的に探求する。
我々は、LMがうまく捉えられない2つの領域、社会的/感情的知性と身体的常識を識別する。
以上の結果から,これらの領域における微調整LMは,ヒト脳反応との整合性を向上させることが示唆された。
論文 参考訳(メタデータ) (2023-11-15T19:02:40Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Towards Concept-Aware Large Language Models [56.48016300758356]
概念は、学習、推論、コミュニケーションなど、様々な人間の認知機能において重要な役割を果たす。
概念を形作り、推論する能力を持つ機械を授けることは、ほとんどない。
本研究では,現代における大規模言語モデル(LLM)が,人間の概念とその構造をどのように捉えているかを分析する。
論文 参考訳(メタデータ) (2023-11-03T12:19:22Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - Towards A Unified Agent with Foundation Models [18.558328028366816]
強化学習(RL)エージェントにそのような能力を組み込んで活用する方法を検討する。
我々は、言語を中核的推論ツールとして使用するフレームワークを設計し、エージェントが一連の基本的なRL課題にどのように取り組むことができるかを探る。
探索効率とオフラインデータセットからのデータの再利用能力において,ベースラインよりも大幅にパフォーマンスが向上したことを示す。
論文 参考訳(メタデータ) (2023-07-18T22:37:30Z) - Explaining Explainability: Towards Deeper Actionable Insights into Deep
Learning through Second-order Explainability [70.60433013657693]
2階説明可能なAI(SOXAI)は、最近インスタンスレベルからデータセットレベルまで説明可能なAI(XAI)を拡張するために提案されている。
そこで本研究では,SOXAIの動作可能な洞察に基づくトレーニングセットから無関係な概念を除外することで,モデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T23:24:01Z) - Human Behavioral Benchmarking: Numeric Magnitude Comparison Effects in
Large Language Models [4.412336603162406]
大規模言語モデル(LLM)は、テキストで広まる数値を差分表現しない。
本研究では,LLMが行動レンズからどれだけの数の数値を捉えているかを検討する。
論文 参考訳(メタデータ) (2023-05-18T07:50:44Z) - Explainable Recommender Systems via Resolving Learning Representations [57.24565012731325]
説明はユーザー体験を改善し、システムの欠陥を発見するのに役立つ。
本稿では,表現学習プロセスの透明性を向上させることによって,説明可能な新しい推薦モデルを提案する。
論文 参考訳(メタデータ) (2020-08-21T05:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。