論文の概要: GRAPHMOE: Amplifying Cognitive Depth of Mixture-of-Experts Network via Introducing Self-Rethinking Mechanism
- arxiv url: http://arxiv.org/abs/2501.07890v2
- Date: Tue, 11 Feb 2025 06:47:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:05:00.332172
- Title: GRAPHMOE: Amplifying Cognitive Depth of Mixture-of-Experts Network via Introducing Self-Rethinking Mechanism
- Title(参考訳): GraphMOE:自己再考メカニズムの導入によるMixture-of-Experts Networkの認知深さの増幅
- Authors: Chen Tang, Bo Lv, Zifan Zheng, Bohao Yang, Kun Zhao, Ning Liao, Xiaoxing Wang, Feiyu Xiong, Zhiyu Li, Nayu Liu, Jingchi Jiang,
- Abstract要約: GraphMOE は Pseudo GraphMoE ネットワーク上に構築された自己再考機構により,言語モデルの認知深度を増大させる新しい手法である。
ローランド適応技術(LoRA)を用いて GraphMOE アーキテクチャを実装し,様々なベンチマークデータセットに対して広範な実験を行う。
実験の結果, GraphMOEは他のLoRAモデルよりも優れ,SOTA(State-of-the-art)性能を実現していることがわかった。
- 参考スコア(独自算出の注目度): 20.765816590224787
- License:
- Abstract: Traditional Mixture-of-Experts (MoE) networks benefit from utilizing multiple smaller expert models as opposed to a single large network. However, these experts typically operate independently, leaving a question open about whether interconnecting these models could enhance the performance of MoE networks. In response, we introduce GRAPHMOE, a novel method aimed at augmenting the cognitive depth of language models via a self-rethinking mechanism constructed on Pseudo GraphMoE networks. GRAPHMOE employs a recurrent routing strategy to simulate iterative thinking steps, thereby facilitating the flow of information among expert nodes. We implement the GRAPHMOE architecture using Low-Rank Adaptation techniques (LoRA) and conduct extensive experiments on various benchmark datasets. The experimental results reveal that GRAPHMOE outperforms other LoRA based models, achieving state-of-the-art (SOTA) performance. Additionally, this study explores a novel recurrent routing strategy that may inspire further advancements in enhancing the reasoning capabilities of language models.
- Abstract(参考訳): 従来のMixture-of-Experts (MoE)ネットワークは、1つの大きなネットワークとは対照的に、複数の小さなエキスパートモデルを利用する利点がある。
しかし、これらの専門家は通常独立して活動し、これらのモデルを相互接続することでMoEネットワークの性能が向上するかどうかという疑問が残る。
そこで我々は,Pseudo GraphMoEネットワーク上に構築された自己再考機構を用いて,言語モデルの認知深度を増大させる新しい手法である GraphMOE を紹介した。
GraphMOEは反復的思考ステップをシミュレートするために繰り返しルーティング戦略を採用し、専門家ノード間の情報の流れを容易にする。
ローランド適応技術(LoRA)を用いて GraphMOE アーキテクチャを実装し,様々なベンチマークデータセットに対して広範な実験を行う。
実験の結果, GraphMOEは他のLoRAモデルよりも優れ,SOTA(State-of-the-art)性能を実現していることがわかった。
さらに,本研究では,言語モデルの推論能力の向上にさらなる進展をもたらす可能性のある,新たな繰り返しルーティング戦略について検討する。
関連論文リスト
- An unified approach to link prediction in collaboration networks [0.0]
本稿では、協調ネットワークにおけるリンク予測の3つのアプローチについて検討し、比較する。
ERGMはネットワーク内の一般的な構造パターンをキャプチャするために使用される。
GCNとWord2Vec+MLPモデルはディープラーニング技術を利用してノードとその関係の適応的構造表現を学習する。
論文 参考訳(メタデータ) (2024-11-01T22:40:39Z) - MoDEM: Mixture of Domain Expert Models [23.846823652305027]
大規模言語モデル(LLM)の性能と効率を向上させる新しい手法を提案する。
本稿では、BERTベースのルータを用いて、最も適切なドメインエキスパートモデルに入力プロンプトを指示するシステムを提案する。
本研究は,本手法が同等の大きさの汎用モデルを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-10-09T23:52:54Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - GFN: A graph feedforward network for resolution-invariant reduced operator learning in multifidelity applications [0.0]
本研究は,多忠実度アプリケーションのための新しい分解能不変モデルオーダー削減戦略を提案する。
我々はこの研究で開発された新しいニューラルネットワーク層、グラフフィードフォワードネットワークに基づいてアーキテクチャを構築した。
パラメトリックな偏微分方程式に対する自己エンコーダに基づく還元戦略において,異なるメッシュサイズでのトレーニングとテストの能力を利用する。
論文 参考訳(メタデータ) (2024-06-05T18:31:37Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Multi-Branch Deep Radial Basis Function Networks for Facial Emotion
Recognition [80.35852245488043]
放射状基底関数(RBF)ユニットによって形成された複数の分岐で拡張されたCNNベースのアーキテクチャを提案する。
RBFユニットは、中間表現を用いて類似のインスタンスで共有される局所パターンをキャプチャする。
提案手法は,提案手法の競争力を高めるためのローカル情報の導入であることを示す。
論文 参考訳(メタデータ) (2021-09-07T21:05:56Z) - Sparse Flows: Pruning Continuous-depth Models [107.98191032466544]
生成モデルにおいて,プルーニングによりニューラルネットワークの一般化が向上することを示す。
また、プルーニングは、元のネットワークに比べて最大98%少ないパラメータで、精度を損なうことなく、最小かつ効率的なニューラルODE表現を見出すことを示した。
論文 参考訳(メタデータ) (2021-06-24T01:40:17Z) - The Self-Simplifying Machine: Exploiting the Structure of Piecewise
Linear Neural Networks to Create Interpretable Models [0.0]
本稿では,分類タスクに対するPiecewise Linear Neural Networksの単純化と解釈性向上のための新しい手法を提案する。
我々の手法には、トレーニングを伴わずに、訓練された深層ネットワークを使用して、良好なパフォーマンスと単一隠れ層ネットワークを生成する方法が含まれる。
これらの手法を用いて,モデル性能の予備的研究およびウェルズ・ファーゴのホームレンディングデータセットのケーススタディを行う。
論文 参考訳(メタデータ) (2020-12-02T16:02:14Z) - Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。
また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文 参考訳(メタデータ) (2020-12-01T11:46:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。