論文の概要: Layerwise Recall and the Geometry of Interwoven Knowledge in LLMs
- arxiv url: http://arxiv.org/abs/2502.10871v2
- Date: Fri, 18 Jul 2025 21:24:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 14:33:31.908456
- Title: Layerwise Recall and the Geometry of Interwoven Knowledge in LLMs
- Title(参考訳): LLMにおける階層的リコールと織り込み知識の幾何学
- Authors: Ge Lei, Samuel J. Cooper,
- Abstract要約: 本研究では,大規模言語モデル (LLM) が織り込んだ科学知識のエンコード方法について検討する。
周期表の概念構造と一致する隠れ状態の3次元スパイラル構造を同定する。
線形探索により、中間層は間接的リコールを可能にするような連続的な重なり合う属性を符号化し、深い層は分類的区別を鋭くし、言語的文脈を取り入れていることが明らかになった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study explores how large language models (LLMs) encode interwoven scientific knowledge, using chemical elements and LLaMA-series models as a case study. We identify a 3D spiral structure in the hidden states that aligns with the conceptual structure of the periodic table, suggesting that LLMs can reflect the geometric organization of scientific concepts learned from text. Linear probing reveals that middle layers encode continuous, overlapping attributes that enable indirect recall, while deeper layers sharpen categorical distinctions and incorporate linguistic context. These findings suggest that LLMs represent symbolic knowledge not as isolated facts, but as structured geometric manifolds that intertwine semantic information across layers. We hope this work inspires further exploration of how LLMs represent and reason about scientific knowledge, particularly in domains such as materials science.
- Abstract(参考訳): 本研究では,大規模言語モデル (LLM) が化学元素とLLaMA系列モデルを事例として,どのように相互に科学知識を符号化するかを考察する。
周期表の概念構造と整合した隠れ状態の3次元スパイラル構造を同定し,LLMがテキストから学習した科学的概念の幾何学的構造を反映できることを示す。
線形探索により、中間層は間接的リコールを可能にするような連続的な重なり合う属性を符号化し、深い層は分類的区別を鋭くし、言語的文脈を取り入れていることが明らかになった。
これらの結果から, LLMは独立した事実ではなく, 階層間の意味情報を補間する構造的幾何学多様体として, 記号的知識を表現することが示唆された。
この研究が、特に材料科学のような分野において、LLMが科学的知識をどのように表現し、推論するかをさらに探究することを願っている。
関連論文リスト
- Abstractive Visual Understanding of Multi-modal Structured Knowledge: A New Perspective for MLLM Evaluation [48.462734327375536]
MLLM(Multi-modal large language model)は、多種多様なシナリオやオブジェクトの包括的理解を可能にする。
MLLMの評価ベンチマークやリーダーボードの普及にもかかわらず、彼らはMLLMが視覚的に現れる構造化された抽象化で世界的知識を理解する上で重要な能力を見落としている。
構造化理解のためのマルチモーダルマップを基盤とした,革新的なベンチマークであるM3STRを提案する。
その結果,抽象的視覚情報を構造化知識で処理し,MLLMの総合的推論能力を向上させるための重要な軌道を図った。
論文 参考訳(メタデータ) (2025-06-02T04:00:35Z) - How Deep Do Large Language Models Internalize Scientific Literature and Citation Practices? [1.130790932059036]
論文の引用において,大規模言語モデル (LLM) がマシュー効果の強化に寄与していることが示唆された。
我々はGPT-4oが生成した274,951個の参照を1万件の論文に対して分析した。
論文 参考訳(メタデータ) (2025-04-03T17:04:56Z) - LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [63.07563443280147]
本稿では,AG-ReID のための新しいフレームワーク LATex を提案する。
属性ベースのテキスト知識を活用するために、プロンプトチューニング戦略を採用する。
我々のフレームワークは、AG-ReIDを改善するために属性ベースのテキスト知識を完全に活用できる。
論文 参考訳(メタデータ) (2025-03-31T04:47:05Z) - MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams [65.02628814094639]
ダイアグラムは視覚言語の基本形として機能し、複雑な概念と、構造化されたシンボル、形状、空間的配置を通してそれらの相互関係を表現する。
現在のベンチマークでは知覚と推論のタスクが明確化されており、マルチモーダルな大規模言語モデルが表面的なパターン認識以上の数学的図形を真に理解しているかどうかを評価することは困難である。
MLLMにおける数学的知覚の分離と評価を目的としたベンチマークであるMATHGLANCEを紹介する。
幾何学的プリミティブと正確な空間関係を付加した200K構造幾何画像テキストの知覚指向データセットであるGeoPePを構築した。
論文 参考訳(メタデータ) (2025-03-26T17:30:41Z) - Steered Generation via Gradient Descent on Sparse Features [1.534667887016089]
クエリ埋め込みのスパース表現を学習するために、スパースオートエンコーダを訓練することにより、大言語モデル(LLM)の内部構造を変更する。
このスパース表現の操作は、出力を異なるスタイル的および認知的目標に向けて効果的に変換することを実証する。
論文 参考訳(メタデータ) (2025-02-25T21:06:14Z) - The Complexity of Learning Sparse Superposed Features with Feedback [0.9838799448847586]
モデルの基本となる学習特徴がエージェントからのフィードバックによって効率的に検索できるかどうかを検討する。
スパース設定で特徴行列を学習する際のフィードバックの複雑さを解析する。
この結果は,エージェントがアクティベーションを構築し,スパースシナリオにおいて強い上限を示すことを許された場合に,厳密な境界を確立する。
論文 参考訳(メタデータ) (2025-02-08T01:54:23Z) - Do Large Language Models Truly Understand Geometric Structures? [15.915781154075615]
我々はGeomRelデータセットを導入し、大規模言語モデルの幾何学的構造に対する理解を評価する。
我々は,LLMの幾何学的関係を識別する能力を高めるGeometry Chain-of-Thought (GeoCoT)法を提案する。
論文 参考訳(メタデータ) (2025-01-23T15:52:34Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - Knowledge Boundary of Large Language Models: A Survey [75.67848187449418]
大規模言語モデル(LLM)はパラメータに膨大な量の知識を格納するが、特定の知識の記憶と利用に制限がある。
これは、LLMの知識境界を理解するための重要な必要性を強調している。
本稿では,LLM知識境界の包括的定義を提案し,知識を4つの異なるタイプに分類する形式化された分類法を提案する。
論文 参考訳(メタデータ) (2024-12-17T02:14:02Z) - Hybrid Discriminative Attribute-Object Embedding Network for Compositional Zero-Shot Learning [83.10178754323955]
HDA-OE(Hybrid Discriminative Attribute-Object Embedding)ネットワークは,属性とオブジェクトの視覚表現との複雑な相互作用を解決するために提案される。
トレーニングデータの多様性を高めるため、HDA-OEは属性駆動型データ合成(ADDS)モジュールを導入した。
HDA-OEは、モデルの識別能力をさらに向上するため、サブクラス駆動の差別的埋め込み(SDDE)モジュールを導入している。
提案モデルを3つのベンチマークデータセットで評価し,その妥当性と信頼性を検証した。
論文 参考訳(メタデータ) (2024-11-28T09:50:25Z) - Probing Ranking LLMs: Mechanistic Interpretability in Information Retrieval [22.875174888476295]
我々は最先端の微調整型変圧器ネットワークの動作について検討する。
我々のアプローチは、LLM内のニューロンの探索に基づく層間層解析である。
ネットワークのアクティベーションの中で、既知の人間工学的・意味的な特徴の個人またはグループを特定する。
論文 参考訳(メタデータ) (2024-10-24T08:20:10Z) - Grouped Discrete Representation Guides Object-Centric Learning [18.44580501357929]
TransformerベースのObject-Centric Discrete Learningは、高密度の画像やテクスチャをスパースなオブジェクトレベルの特徴に抽象化することができる。
特徴を属性にグループ化して数値でインデックス化することで,これらの問題に対処するためのtextitGrouped Representation (GDR) を提案する。
論文 参考訳(メタデータ) (2024-07-01T19:00:40Z) - Can Large Language Models Understand DL-Lite Ontologies? An Empirical Study [10.051572826948762]
大規模モデル(LLM)は、幅広いタスクを解く上で大きな成果を上げている。
我々は、記述論理(DL-Lite)を理解するLLMの能力を実証的に分析する。
LLMは概念と役割の形式的構文とモデル理論的意味論を理解する。
論文 参考訳(メタデータ) (2024-06-25T13:16:34Z) - Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。
具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文 参考訳(メタデータ) (2024-05-06T16:31:19Z) - Exploring Concept Depth: How Large Language Models Acquire Knowledge and Concept at Different Layers? [57.04803703952721]
大規模言語モデル(LLM)は、幅広いタスクで顕著なパフォーマンスを示している。
しかし、これらのモデルが様々な複雑さのタスクを符号化するメカニズムは、いまだに理解されていない。
概念深さ」の概念を導入し、より複雑な概念が一般的により深い層で得られることを示唆する。
論文 参考訳(メタデータ) (2024-04-10T14:56:40Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Scientific Large Language Models: A Survey on Biological & Chemical Domains [47.97810890521825]
大規模言語モデル(LLM)は、自然言語理解の強化において、変革的な力として現れてきた。
LLMの応用は従来の言語境界を超えて、様々な科学分野で開発された専門的な言語システムを含んでいる。
AI for Science(AI for Science)のコミュニティで急成長している分野として、科学LLMは包括的な探査を義務付けている。
論文 参考訳(メタデータ) (2024-01-26T05:33:34Z) - Evaluating Spatial Understanding of Large Language Models [26.436450329727645]
大規模言語モデルは、様々なタスクにまたがる顕著な能力を示している。
近年の研究では、LLM表現は基礎となる基礎概念の側面を暗黙的に捉えていることが示唆されている。
自然言語ナビゲーションタスクを設計し,空間構造を表現・推論するLLMの能力を評価する。
論文 参考訳(メタデータ) (2023-10-23T03:44:40Z) - MechGPT, a language-based strategy for mechanics and materials modeling
that connects knowledge across scales, disciplines and modalities [0.0]
我々は,Large Language Model (LLM) を用いて,質問応答対を原料から抽出し,微調整する。
得られたMechGPT LLM基盤モデルは、知識検索、様々な言語タスク、仮説生成、異なる領域にわたる知識の接続能力を調べるために、一連の計算実験で使用される。
論文 参考訳(メタデータ) (2023-10-16T14:29:35Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - The geometry of hidden representations of large transformer models [43.16765170255552]
大規模トランスは、さまざまなデータタイプをまたいだ自己教師型データ分析に使用される強力なアーキテクチャである。
データセットのセマンティック構造は、ある表現と次の表現の間の変換のシーケンスから現れることを示す。
本研究は,データセットのセマンティクス情報が第1ピークの終わりによりよく表現されることを示し,この現象を多種多様なデータセットで訓練された多くのモデルで観測できることを示した。
論文 参考訳(メタデータ) (2023-02-01T07:50:26Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。