論文の概要: Dynamic Reasoning Chains through Depth-Specialized Mixture-of-Experts in Transformer Architectures
- arxiv url: http://arxiv.org/abs/2509.20577v1
- Date: Wed, 24 Sep 2025 21:33:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.597769
- Title: Dynamic Reasoning Chains through Depth-Specialized Mixture-of-Experts in Transformer Architectures
- Title(参考訳): 変圧器アーキテクチャにおける深度特化混合による動的推論チェーン
- Authors: Sampurna Roy, Ayan Sar, Anurag Kaushish, Kanav Gupta, Tanupriya Choudhury, Abhijit Kumar,
- Abstract要約: 我々はDepth Specialated Mixture of Experts (DS-MoE) を通して動的推論チェインの概念を開発する。
DS-MoEは、異なる推論深度、浅いパターン認識、構成推論、論理推論、メモリ統合、メタ認知監視のために最適化されたエキスパートモジュールを導入している。
DS-MoEは,一様深度変圧器に比べて最大16パーセント,35%高速な推算が可能なことを示す。
- 参考スコア(独自算出の注目度): 1.0518862318418605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contemporary transformer architectures apply identical processing depth to all inputs, creating inefficiencies and limiting reasoning quality. Simple factual queries are subjected to the same multilayered computation as complex logical problems, wasting resources while constraining deep inference. To overcome this, we came up with a concept of Dynamic Reasoning Chains through Depth Specialised Mixture of Experts (DS-MoE), a modular framework that extends the Mixture of Experts paradigm from width-based to depth specialised computation. DS-MoE introduces expert modules optimised for distinct reasoning depths, shallow pattern recognition, compositional reasoning, logical inference, memory integration, and meta-cognitive supervision. A learned routing network dynamically assembles custom reasoning chains, activating only the necessary experts to match input complexity. The dataset on which we trained and evaluated DS-MoE is on The Pile, an 800GB corpus covering diverse domains such as scientific papers, legal texts, programming code, and web content, enabling systematic assessment across reasoning depths. Experimental results demonstrate that DS-MoE achieves up to 16 per cent computational savings and 35 per cent faster inference compared to uniform-depth transformers, while delivering 2.8 per cent higher accuracy on complex multi-step reasoning benchmarks. Furthermore, routing decisions yield interpretable reasoning chains, enhancing transparency and scalability. These findings establish DS-MoE as a significant advancement in adaptive neural architectures, demonstrating that depth-specialised modular processing can simultaneously improve efficiency, reasoning quality, and interpretability in large-scale language models.
- Abstract(参考訳): 現代のトランスアーキテクチャは全ての入力に同一の処理深度を適用し、非効率性と推論品質を制限している。
単純な事実クエリは、複雑な論理問題と同じ多層計算の対象となり、深い推論を制約しながらリソースを浪費する。
この問題を解決するために、我々はDepth Specialated Mixture of Experts (DS-MoE)を通じて動的推論チェイン(Dynamic Reasoning Chains)の概念を思いついた。
DS-MoEは、異なる推論深度、浅いパターン認識、構成推論、論理推論、メモリ統合、メタ認知監視のために最適化されたエキスパートモジュールを導入している。
学習されたルーティングネットワークは、独自の推論チェーンを動的に組み立て、入力の複雑さに合わせて必要な専門家のみを活性化する。
DS-MoEをトレーニングし、評価したデータセットは、科学的論文、法的テキスト、プログラミングコード、Webコンテンツなど、800GBのコーパスであるThe Pile上にあります。
実験の結果、DS-MoEは、複雑なマルチステップ推論ベンチマークで2.8%高い精度で、一様深度変圧器に比べて最大16パーセントの計算節約と35パーセントの推論を実現していることが示された。
さらに、ルーティングの決定によって解釈可能な推論チェーンが得られ、透明性とスケーラビリティが向上します。
これらの結果から,DS-MoEは適応型ニューラルアーキテクチャの顕著な進歩として確立され,大規模言語モデルにおいて,深度特異的なモジュラー処理が効率,品質,解釈性を同時に改善できることが証明された。
関連論文リスト
- DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。
我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文 参考訳(メタデータ) (2025-07-29T17:55:23Z) - Do LLMs Dream of Discrete Algorithms? [0.7646713951724011]
大規模言語モデル(LLM)は、人工知能の風景を急速に変化させてきた。
確率的推論への依存は、厳密な論理的推論を必要とする領域における有効性を制限する。
本稿では,論理ベースの推論モジュールでLLMを増強するニューロシンボリックアプローチを提案する。
論文 参考訳(メタデータ) (2025-06-29T22:03:01Z) - SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis [89.99161034065614]
Retrieval-augmented Generation (RAG) システムは複雑なディープ検索シナリオにおいて高度な大規模言語モデル(LLM)を持つ。
既存のアプローチでは、高品質なトレーニングトラジェクトリが欠如し、分散ミスマッチに苦しむ、重要な制限に直面しています。
本稿では,複雑なトレーニングパラダイムではなく,戦略的データエンジニアリングによるギャップを埋めるフレームワークであるSimpleDeepSearcherを紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:05:02Z) - MoLAE: Mixture of Latent Experts for Parameter-Efficient Language Models [10.623996218106564]
Mixture of Experts (MoE)は、Large Language Models (LLM)を効率的にスケーリングするための重要なアーキテクチャパラダイムとなっている。
我々は、共有射影を通して専門家の操作を低次元の潜在空間に変換する新しいパラメータ化であるMoLAEを導入し、それに続いて専門家固有の変換を行う。
モデル性能を保ちながら,MoLAEは複数の次元にわたる効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-03-29T14:35:34Z) - A Theoretical Framework for Prompt Engineering: Approximating Smooth Functions with Transformer Prompts [33.284445296875916]
本稿では, トランスフォーマーモデルに, 慎重に設計したプロンプトを付与することで, 計算システムとして機能できることを実証する公式なフレームワークを提案する。
我々は、$beta$-timesの微分可能関数に対する近似理論を確立し、適切に構造化されたプロンプトで導かれるとき、変換器が任意の精度でそのような関数を近似できることを証明した。
我々の発見は、自律的な推論と問題解決の可能性を強調し、エンジニアリングとAIエージェント設計のより堅牢で理論的に根ざした進歩の道を開いた。
論文 参考訳(メタデータ) (2025-03-26T13:58:02Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Towards 3D Acceleration for low-power Mixture-of-Experts and Multi-Head Attention Spiking Transformers [5.1210823165448]
Spiking Neural Networks(SNN)は、エネルギー効率のよいディープラーニングを解き放つ上で重要な、脳にインスパイアされたイベント駆動のメカニズムを提供する。
本稿では,Mixture-of-ExpertsとMulti-Head Attention Spiking Transformerの最初の3Dハードウェアアーキテクチャと設計手法を紹介する。
論文 参考訳(メタデータ) (2024-12-07T05:15:05Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - SVD Perspectives for Augmenting DeepONet Flexibility and
Interpretability [0.0]
ディープ・オペレーターネットワーク(DeepONets)は、複雑な力学の高速かつ正確なエミュレーションのための強力なアーキテクチャである。
特異値分解(SVD)から導かれる低ランク手法との接続について検討する。
適切な分解(POD)-神経ネットワークの背景にある概念のいくつかは、DeepONetの設計とトレーニングのフェーズを改善することができることを示す。
論文 参考訳(メタデータ) (2022-04-27T02:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。