論文の概要: Emergent Symbolic Mechanisms Support Abstract Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2502.20332v1
- Date: Thu, 27 Feb 2025 18:02:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:59:11.800520
- Title: Emergent Symbolic Mechanisms Support Abstract Reasoning in Large Language Models
- Title(参考訳): 大規模言語モデルにおける抽象推論を支援する創発的シンボリックメカニズム
- Authors: Yukang Yang, Declan Campbell, Kaixuan Huang, Mengdi Wang, Jonathan Cohen, Taylor Webb,
- Abstract要約: オープンソース言語モデルにおける抽象ルール帰納を支援する内部メカニズムについて検討する。
抽象的推論を3つの計算で実装した創発的シンボリックアーキテクチャを同定する。
- 参考スコア(独自算出の注目度): 35.113784501552686
- License:
- Abstract: Many recent studies have found evidence for emergent reasoning capabilities in large language models, but debate persists concerning the robustness of these capabilities, and the extent to which they depend on structured reasoning mechanisms. To shed light on these issues, we perform a comprehensive study of the internal mechanisms that support abstract rule induction in an open-source language model (Llama3-70B). We identify an emergent symbolic architecture that implements abstract reasoning via a series of three computations. In early layers, symbol abstraction heads convert input tokens to abstract variables based on the relations between those tokens. In intermediate layers, symbolic induction heads perform sequence induction over these abstract variables. Finally, in later layers, retrieval heads predict the next token by retrieving the value associated with the predicted abstract variable. These results point toward a resolution of the longstanding debate between symbolic and neural network approaches, suggesting that emergent reasoning in neural networks depends on the emergence of symbolic mechanisms.
- Abstract(参考訳): 多くの最近の研究では、大きな言語モデルにおける創発的推論能力の証拠が見つかっているが、これらの能力の堅牢性や、それらが構造的推論機構に依存する範囲について議論が続いている。
これらの課題を明らかにするために,オープンソース言語モデル (Llama3-70B) における抽象ルール帰納を支援する内部メカニズムを包括的に研究する。
抽象的推論を3つの計算で実装した創発的シンボリックアーキテクチャを同定する。
初期のレイヤでは、シンボル抽象ヘッドは、これらのトークン間の関係に基づいて、入力トークンを抽象変数に変換する。
中間層では、シンボリック誘導ヘッドはこれらの抽象変数上でシーケンス誘導を行う。
最後に、後続の層では、検索ヘッドが予測された抽象変数に関連する値を検索することで次のトークンを予測する。
これらの結果は、ニューラルネットワークにおける創発的推論が、象徴的メカニズムの出現に依存することを示唆する、記号的アプローチとニューラルネットワークアプローチの長年にわたる議論の解決に向けられている。
関連論文リスト
- Discovering Chunks in Neural Embeddings for Interpretability [53.80157905839065]
本稿では, チャンキングの原理を応用して, 人工神経集団活動の解釈を提案する。
まず、この概念を正則性を持つ人工シーケンスを訓練したリカレントニューラルネットワーク(RNN)で実証する。
我々は、これらの状態に対する摂動が関連する概念を活性化または阻害すると共に、入力における概念に対応する同様の繰り返し埋め込み状態を特定する。
論文 参考訳(メタデータ) (2025-02-03T20:30:46Z) - Neuro-Symbolic AI: Explainability, Challenges, and Future Trends [26.656105779121308]
本稿では,2013年度の191研究におけるモデル設計と行動の両面を考慮した説明可能性の分類を提案する。
我々は,表現の相違をブリッジする形態が可読かどうかを考慮し,これらを5つのカテゴリに分類する。
我々は、統一表現、モデル説明可能性の向上、倫理的考察、社会的影響の3つの側面で将来の研究を提案する。
論文 参考訳(メタデータ) (2024-11-07T02:54:35Z) - VisualPredicator: Learning Abstract World Models with Neuro-Symbolic Predicates for Robot Planning [86.59849798539312]
本稿では,記号的・神経的知識表現の強みを組み合わせた一階抽象言語Neuro-Symbolic Predicatesを提案する。
提案手法は, サンプルの複雑さの向上, 分布外一般化の強化, 解釈可能性の向上を実現する。
論文 参考訳(メタデータ) (2024-10-30T16:11:05Z) - Discrete, compositional, and symbolic representations through attractor dynamics [51.20712945239422]
我々は,思考の確率的言語(PLoT)に似た認知過程をモデル化するために,アトラクタダイナミクスを記号表現と統合した新しいニューラルシステムモデルを導入する。
我々のモデルは、連続表現空間を、事前定義されたプリミティブに頼るのではなく、教師なし学習を通じて、記号系の意味性と構成性の特徴を反映する、記号列に対応する引き付け状態を持つ離散盆地に分割する。
このアプローチは、認知操作の複雑な双対性を反映したより包括的なモデルを提供する、AIにおける表現力の証明された神経弁別可能な基質であるニューラルダイナミクスを通じて、シンボル処理とサブシンボル処理の両方を統合する統一的なフレームワークを確立する。
論文 参考訳(メタデータ) (2023-10-03T05:40:56Z) - LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and
Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。
ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。
これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文 参考訳(メタデータ) (2023-09-24T05:43:19Z) - The Relational Bottleneck as an Inductive Bias for Efficient Abstraction [3.19883356005403]
ニューラルネットワークはアーキテクチャを通して、個々の入力の属性ではなく、知覚的入力間の関係に焦点を絞っていることを示す。
データ効率のよい方法で抽象化を誘導するために、このアプローチを用いたモデルのファミリーをレビューする。
論文 参考訳(メタデータ) (2023-09-12T22:44:14Z) - A Recursive Bateson-Inspired Model for the Generation of Semantic Formal
Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。
このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。
このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文 参考訳(メタデータ) (2023-07-16T15:59:13Z) - Learning Differentiable Logic Programs for Abstract Visual Reasoning [18.82429807065658]
微分フォワード推論は、勾配に基づく機械学習パラダイムと推論を統合するために開発された。
NEUMANNはグラフベースの微分可能フォワード推論器で、メッセージをメモリ効率のよい方法で送信し、構造化プログラムを関手で処理する。
NEUMANNは視覚的推論タスクを効率的に解き、神経、象徴的、神経-象徴的ベースラインを上回ります。
論文 参考訳(メタデータ) (2023-07-03T11:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。