論文の概要: PiERN: Token-Level Routing for Integrating High-Precision Computation and Reasoning
- arxiv url: http://arxiv.org/abs/2509.18169v2
- Date: Sat, 27 Sep 2025 06:44:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 20:10:04.602307
- Title: PiERN: Token-Level Routing for Integrating High-Precision Computation and Reasoning
- Title(参考訳): PiERN:高精度計算と推論の統合のためのToken-Level Routing
- Authors: Hengbo Xiao, Jingyuan Fan, Xin Tong, Jingzhao Zhang, Chao Lu, Guannan He,
- Abstract要約: 計算と推論を統合するための物理ルーティング型エキスパートネットワーク(PiERN)を提案する。
PiERNは、専門家とテキストから計算モジュール、ルータを個別にトレーニングした後、計算機能をニューラルネットワークに不均一に統合する。
その結果,PierNアーキテクチャは大規模言語モデルを直接微調整するよりも精度が高いことがわかった。
- 参考スコア(独自算出の注目度): 20.622941954258973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tasks on complex systems require high-precision numerical computation to support decisions, but current large language models (LLMs) cannot integrate such computations as an intrinsic and interpretable capability with existing architectures. Multi-agent approaches can leverage external experts, but inevitably introduce communication overhead and suffer from inefficiency caused by limited scalability. To this end, we propose Physically-isolated Experts Routing Network (PiERN), an architecture for integrating computation and reasoning. Instead of the tool-use workflows or function-calling, PiERN endogenously integrates computational capabilities into neural networks after separately training experts, a text-to-computation module, and a router. At inference, the router directs computation and reasoning at the token level, thereby enabling iterative alternation within a single chain of thought. We evaluate PiERN on representative linear and nonlinear computation-reasoning tasks against LLM finetuning and the multi-agent system approaches. Results show that the PiERN architecture achieves not only higher accuracy than directly finetuning LLMs but also significant improvements in response latency, token usage, and GPU energy consumption compared with mainstream multi-agent approaches. PiERN offers an efficient, interpretable, and scalable paradigm for interfacing language models with scientific systems.
- Abstract(参考訳): 複雑なシステムのタスクは意思決定を支援するために高精度な数値計算を必要とするが、現在の大規模言語モデル(LLM)は、そのような計算を既存のアーキテクチャと本質的に解釈可能な能力として統合することはできない。
マルチエージェントアプローチは外部の専門家を活用できるが、通信オーバーヘッドを必然的に導入し、スケーラビリティの制限による非効率さに悩まされる。
この目的のために、計算と推論を統合するアーキテクチャであるPierN(Physically Soolated Experts Routing Network)を提案する。
ツール使用ワークフローや関数呼び出しの代わりに、PiERNは専門家を個別に訓練した後、計算機能をニューラルネットワークに統合する。
推論において、ルータはトークンレベルでの計算と推論を指示し、単一の思考の連鎖内で反復的な変更を可能にする。
我々は,LLMファインタニングとマルチエージェントシステムアプローチに対する線形および非線形計算推論タスクにおけるPiERNの評価を行った。
その結果, PiERN アーキテクチャは LLM を直接微調整するだけでなく, 応答遅延, トークン使用量, GPU エネルギー消費の大幅な改善を実現している。
PiERNは、科学的システムで言語モデルと対話するための、効率的で解釈可能でスケーラブルなパラダイムを提供する。
関連論文リスト
- LLMThinkBench: Towards Basic Math Reasoning and Overthinking in Large Language Models [4.370731670976415]
大規模言語モデル (LLM) は複雑な数学的ベンチマークにおいて顕著な性能を達成している。
LLMは単純な算術的なタスクに苦しむことが多く、過剰な説明や「過度に考える」回答の傾向を示す。
このフレームワークは、ランダムなテストデータ生成と堅牢な解析戦略を備えた14の数学タスクを提供する。
カスタムタスクでツールを拡張し、シードでの実験を再現し、詳細な効率レポートを生成することができる。
論文 参考訳(メタデータ) (2025-07-05T12:31:17Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Inducing Point Operator Transformer: A Flexible and Scalable
Architecture for Solving PDEs [7.152311859951986]
誘導点演算子変換器(IPOT)と呼ばれる注意モデルを導入する。
IPOTは、グローバルなインタラクションを計算的に効率的な方法でキャプチャしながら、任意の入力関数と出力クエリを処理するように設計されている。
IPOTは、プロセッサからのインプット/アウトプットの離散化を遅延ボトルネックより小さくすることで、任意の離散化を処理する柔軟性を提供する。
論文 参考訳(メタデータ) (2023-12-18T06:57:31Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Neuromorphic scaling advantages for energy-efficient random walk
computation [0.28144129864580447]
ニューロモルフィックコンピューティングは、人間のハードウェアで脳の計算構造とアーキテクチャを再現することを目的としている。
スパイキングニューロモルフィックアーキテクチャの高次並列性と構成性は、離散時間チェーンを介してランダムウォークを実装するのに適していることを示す。
NMCプラットフォームは十分な規模で,高性能コンピューティングプラットフォームのエネルギー需要を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-07-27T19:44:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。