論文の概要: Mixture of Cognitive Reasoners: Modular Reasoning with Brain-Like Specialization
- arxiv url: http://arxiv.org/abs/2506.13331v2
- Date: Wed, 15 Oct 2025 12:04:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 15:32:13.695794
- Title: Mixture of Cognitive Reasoners: Modular Reasoning with Brain-Like Specialization
- Title(参考訳): 認知共振器の混合:脳様の特殊化を伴うモジュラリ共振器
- Authors: Badr AlKhamissi, C. Nicolò De Sabbata, Greta Tuckute, Zeming Chen, Martin Schrimpf, Antoine Bosselut,
- Abstract要約: Mixture of Cognitive Reasoners (MiCRo)は、専門家間で機能的な特殊化を誘導するモジュラーアーキテクチャである。
MiCRoは、標準言語モデルよりも3つの大きなアドバンテージを提供する。
- 参考スコア(独自算出の注目度): 23.335522323992063
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human cognitive behavior arises from the interaction of specialized brain networks dedicated to distinct functions, such as language, logic, and social reasoning. Inspired by this organization, we propose Mixture of Cognitive Reasoners (MiCRo): a modular, transformer-based architecture post-trained with a curriculum that induces functional specialization across experts. Concretely, we partition the layers of a pretrained language model into four expert modules aligned with well-studied cognitive networks in the human brain. MiCRo offers three key advantages over standard language models. (1) The specialized experts are interpretable and causally meaningful -- ablating a module causes substantial drops on benchmarks requiring its specialized domain. (2) MiCRo's behavior can be dynamically steered at inference time by routing tokens to particular experts (e.g., favoring social over logical reasoning), enabling fine-grained control over outputs. (3) MiCRo outperforms or matches comparable baselines on both machine-learning reasoning benchmarks (e.g., GSM8K, BBH) and alignment to human behavior (CogBench), while maintaining interpretability. Taken together, cognitively grounded functional specialization yields models that are both more human-like and more human-interpretable.
- Abstract(参考訳): 人間の認知行動は、言語、論理、社会的推論など、特定の機能に特化した脳ネットワークの相互作用から生じる。
この組織にインスパイアされたMixture of Cognitive Reasoners (MiCRo) は、モジュール型のトランスフォーマーベースのアーキテクチャで、専門家間で機能的な特殊化を誘導するカリキュラムをポストトレーニングしたものだ。
具体的には、事前訓練された言語モデルの層を、人間の脳内のよく研究された認知ネットワークと整合した4つの専門家モジュールに分割する。
MiCRoは、標準言語モデルよりも3つの大きなアドバンテージを提供する。
1) 専門の専門家は解釈可能で、慎重に意味がある -- モジュールを非難することで、その専門ドメインを必要とするベンチマークが大幅に低下する。
2) MiCRoの動作は、特定の専門家(例えば、論理的推論よりも社会的を好む)にトークンをルーティングすることで、推論時に動的に操り、出力のきめ細かい制御を可能にする。
(3) MiCRoは、機械学習推論ベンチマーク(例えば、GSM8K、BBH)と人間行動のアライメント(CogBench)の両方において、解釈可能性を維持しながら、同等のベースラインを達成または一致させる。
認知的に基礎付けられた機能的特殊化は、より人間らしく、より人間的に解釈可能なモデルを生み出す。
関連論文リスト
- Revising Bloom's Taxonomy for Dual-Mode Cognition in Human-AI Systems: The Augmented Cognition Framework [0.0]
認知行動は、個々に、生物学的リソースのみを使用して、または人間-AIシステムに分散する2つの異なるモードでますます発生します。
ブルームの分類学の既存の改訂では、AIは、この二重モード構造のドライバとしてではなく、人間の認知に対してマップされる外部能力として扱われている。
本稿では,3つの原則に基づいて構築された分類体系であるAugmented Cognition Framework (ACF)を提案する。
論文 参考訳(メタデータ) (2026-01-31T12:45:43Z) - Cognitive Mirrors: Exploring the Diverse Functional Roles of Attention Heads in LLM Reasoning [54.12174882424842]
大規模言語モデル(LLM)は、様々なタスクにおいて最先端のパフォーマンスを達成したが、内部メカニズムに関してはほとんど不透明である。
本稿では,注目者の役割と行動を体系的に分析する新しい解釈可能性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T10:24:34Z) - Thinking Beyond Tokens: From Brain-Inspired Intelligence to Cognitive Foundations for Artificial General Intelligence and its Societal Impact [27.722167796617114]
本稿では,人工知能,認知神経科学,心理学,生成モデル,エージェントベースシステムの学際的合成について述べる。
我々は汎用知能のアーキテクチャと認知の基礎を分析し、モジュラー推論、永続記憶、マルチエージェント協調の役割を強調した。
我々は、人工知能への道の鍵となる科学的、技術的、倫理的課題を特定します。
論文 参考訳(メタデータ) (2025-07-01T16:52:25Z) - Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training [86.70255651945602]
我々はReinforcecing Cognitive Experts(RICE)と呼ばれる新しい推論時ステアリング手法を導入する。
RICEは、追加のトレーニングや複雑化なしに推論のパフォーマンスを改善することを目的としている。
先行する MoE ベースの LRM を用いた経験的評価は、推論精度、認知効率、ドメイン間の一般化において顕著で一貫した改善を示す。
論文 参考訳(メタデータ) (2025-05-20T17:59:16Z) - Neural Dynamics Model of Visual Decision-Making: Learning from Human Experts [28.340344705437758]
視覚入力から行動出力まで,包括的な視覚的意思決定モデルを実装した。
我々のモデルは人間の行動と密接に一致し、霊長類の神経活動を反映する。
ニューロイメージング・インフォームド・ファインチューニング手法を導入し、モデルに適用し、性能改善を実現した。
論文 参考訳(メタデータ) (2024-09-04T02:38:52Z) - Brain-Like Language Processing via a Shallow Untrained Multihead Attention Network [16.317199232071232]
大規模言語モデル(LLM)は、人間の言語システムの効果的なモデルであることが示されている。
本研究では、未学習モデルの驚くほどのアライメントを駆動する重要なアーキテクチャコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-21T12:54:03Z) - Interpretable Spatio-Temporal Embedding for Brain Structural-Effective Network with Ordinary Differential Equation [56.34634121544929]
本研究では,まず動的因果モデルを用いて脳効果ネットワークを構築する。
次に、STE-ODE(Spatio-Temporal Embedding ODE)と呼ばれる解釈可能なグラフ学習フレームワークを導入する。
このフレームワークは、構造的および効果的なネットワーク間の動的相互作用を捉えることを目的とした、特異的に設計されたノード埋め込み層を含んでいる。
論文 参考訳(メタデータ) (2024-05-21T20:37:07Z) - MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。
現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。
我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文 参考訳(メタデータ) (2024-04-11T15:46:42Z) - Development of Compositionality and Generalization through Interactive Learning of Language and Action of Robots [1.7624347338410742]
本稿では、視覚、受容、言語を予測符号化と能動推論の枠組みに組み込む脳に触発されたニューラルネットワークモデルを提案する。
その結果,課題構成の訓練変化が増大すると,未学習の動詞-名詞合成への学習の一般化が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-03-29T06:22:37Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - A Language Model with Limited Memory Capacity Captures Interference in
Human Sentence Processing [25.916625483405802]
我々は1つの自己注意頭を持つ反復型ニューラル言語モデルを開発する。
我々は,人間の実験で観察された意味的・統語的干渉効果を,モデルの単一注意頭部が捉えていることを示す。
論文 参考訳(メタデータ) (2023-10-24T19:33:27Z) - Emergent Modularity in Pre-trained Transformers [127.08792763817496]
モジュラリティの主な特徴は、ニューロンの機能的特殊化と機能に基づくニューロングループ化である。
事前学習中にモジュラリティがどのように出現するかを調べた結果,モジュール構造が早期に安定していることが判明した。
このことはトランスフォーマーがまずモジュラ構造を構築し、次にきめ細かいニューロン関数を学ぶことを示唆している。
論文 参考訳(メタデータ) (2023-05-28T11:02:32Z) - Dissociating language and thought in large language models [52.39241645471213]
大規模言語モデル(LLM)は、人間の言語を習得する上で、今までに最も近いモデルである。
我々は、この区別を人間の神経科学に根ざし、形式的、機能的な能力は異なる神経機構に依存していることを示した。
LLMは形式的能力は驚くほど優れているが、機能的能力のタスクにおける性能はいまだに不明瞭である。
論文 参考訳(メタデータ) (2023-01-16T22:41:19Z) - Disentangling Reasoning Capabilities from Language Models with
Compositional Reasoning Transformers [72.04044221898059]
ReasonFormerは、人間のモジュール的および構成的推論プロセスを反映するための統一的な推論フレームワークである。
表現モジュール(自動思考)と推論モジュール(制御思考)は、異なるレベルの認知を捉えるために切り離される。
統一された推論フレームワークは、単一のモデルで複数のタスクを解決し、エンドツーエンドでトレーニングされ、推論される。
論文 参考訳(メタデータ) (2022-10-20T13:39:55Z) - Model-based analysis of brain activity reveals the hierarchy of language
in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。
そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-12T15:30:21Z) - Meta-brain Models: biologically-inspired cognitive agents [0.0]
メタ脳モデルと呼ぶ計算手法を提案する。
特殊なモデルを用いて構成したレイヤの組み合わせを提案する。
我々は、この柔軟でオープンソースなアプローチの開発における次のステップを提案して、結論付けます。
論文 参考訳(メタデータ) (2021-08-31T05:20:53Z) - Compositional Generalization by Learning Analytical Expressions [87.15737632096378]
メモリ拡張ニューラルモデルは、合成一般化を達成するために解析式に接続される。
良く知られたベンチマークSCANの実験は、我々のモデルが構成的一般化の優れた能力をつかむことを示した。
論文 参考訳(メタデータ) (2020-06-18T15:50:57Z) - Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである
本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文 参考訳(メタデータ) (2020-06-15T13:59:47Z) - Brain-inspired self-organization with cellular neuromorphic computing
for multimodal unsupervised learning [0.0]
本稿では,自己組織マップとヘビアン様学習を用いた再突入理論に基づく脳刺激型ニューラルシステムを提案する。
システムトポロジがユーザによって固定されるのではなく,自己組織化によって学習されるような,いわゆるハードウェアの可塑性の獲得について述べる。
論文 参考訳(メタデータ) (2020-04-11T21:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。