論文の概要: GMoE: Empowering LLMs Fine-Tuning via MoE Graph Collaboration
- arxiv url: http://arxiv.org/abs/2412.16216v3
- Date: Tue, 27 May 2025 02:34:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:19.089069
- Title: GMoE: Empowering LLMs Fine-Tuning via MoE Graph Collaboration
- Title(参考訳): GMoE: MoE グラフコラボレーションによる LLM ファインチューニングの強化
- Authors: Ting Bai, Yue Yu, Le Huang, Zenan Xu, Zhe Zhao, Chuan Shi,
- Abstract要約: 複数の専門家のコラボレーションを強化することを目的とした、新しいMoEグラフベースのフレームワークである$textbfGMoE$を紹介した。
GMoEでは、グラフルータ関数は専門家間の協調信号をキャプチャするように設計されている。
GMoEでは、$textitPoissonディストリビューションベースの区別戦略と$textitNormal分散ベースのバランス戦略の2つの調整戦略を提案しました。
- 参考スコア(独自算出の注目度): 39.302800055216764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The sparse Mixture-of-Experts (MoE) architecture of large language models (LLMs) confronts an inherent issue of load imbalance arising from the simplistic linear router strategy, which ultimately causes the instability and inefficient learning of LLMs. To address this challenge, we introduce a novel MoE graph-based framework $\textbf{GMoE}$, aimed at enhancing the collaboration among multiple experts. In GMoE, a graph router function is designed to capture the collaboration signals among experts. This enables all experts to dynamically allocate information derived from input data by sharing information with their neighboring experts. Moreover, we put forward two coordination strategies in GMoE: the $\textit{Poisson distribution-based distinction strategy}$ and the $\textit{Normal distribution-based balance strategy}$, to further release the capacity of each expert and increase the model stability in the fine-tuning of LLMs. Specifically, we leverage a parameter-efficient fine-tuning technique, i.e., Low-Rank Adaptation (LoRA), to implement the graph MoE architecture. Extensive experiments on four real-world benchmark datasets demonstrate the effectiveness of GMoE, showing the benefits of facilitating collaborations of multiple experts in LLM fine-tuning. The code of experimental implementation is available at https://github.com/BAI-LAB/GMoE
- Abstract(参考訳): 大規模言語モデル (LLM) のスパース・ミックス・オブ・エクササイズ (MoE) アーキテクチャは、単純線形ルータ戦略から生じる負荷不均衡の固有の問題に直面し、最終的にLLMの不安定性と非効率な学習を引き起こす。
この課題に対処するために、複数の専門家のコラボレーションを強化することを目的とした、新しいMoEグラフベースのフレームワークである$\textbf{GMoE}$を紹介した。
GMoEでは、グラフルータ関数は専門家間の協調信号をキャプチャするように設計されている。
これにより、すべての専門家が、近隣の専門家と情報を共有することで、入力データから派生した情報を動的に割り当てることができる。
さらに、GMoEの2つの調整戦略を提示した: $\textit{Poisson distribution-based distinction strategy}$と$\textit{Normal distribution-based balance strategy}$。
具体的には、グラフMoEアーキテクチャを実装するためにパラメータ効率のよい微調整技術、すなわちローランド適応(LoRA)を利用する。
4つの実世界のベンチマークデータセットに対する大規模な実験は、GMoEの有効性を示し、LLMファインチューニングにおける複数の専門家のコラボレーションを促進する利点を示している。
実験実装のコードはhttps://github.com/BAI-LAB/GMoEで公開されている。
関連論文リスト
- A Strategic Coordination Framework of Small LLMs Matches Large LLMs in Data Synthesis [43.746749403268275]
大規模言語モデル(LLM)は、計算コスト、環境不効率、モノリシックアーキテクチャから受け継いだ潜在的なバイアスに悩まされる。
我々は、高品質で多様な信頼性のあるデータを生成するために、小さなLLMにまたがる特殊な役割を集約する協調的なフレームワークGRAを提案する。
本研究は,データ合成におけるモノリシックな大規模モデルの必要性に挑戦し,より小さなエージェントの戦略的コーディネーションを提唱する。
論文 参考訳(メタデータ) (2025-04-11T06:13:43Z) - Data-centric Federated Graph Learning with Large Language Models [34.224475952206404]
フェデレーショングラフ学習(FGL)では、完全なグラフは、プライバシー上の懸念により、各クライアントに格納された複数のサブグラフに分割される。
FGLの問題点は、ノードや構造がクライアント間で非IID特性を示す不均一性の問題である。
本稿では,FGLの大規模言語モデルのタスクを理論的に2つのサブタスクに分割する枠組みを提案する。
論文 参考訳(メタデータ) (2025-03-25T08:43:08Z) - A Hierarchical Language Model For Interpretable Graph Reasoning [47.460255447561906]
ノード中心の局所情報と相互作用中心のグローバル構造を捉えるために2ブロックアーキテクチャを用いる階層型グラフ言語モデル(HLM-G)を導入する。
提案手法は,大規模グラフ処理における計算コストを削減しつつ,高い効率性,効率性,ロバスト性で様々なグラフクエリに対処することを可能にする。
多様なグラフ推論およびノード,リンク,グラフレベルの実世界のタスクに対する総合的な評価は,本手法の優位性を強調している。
論文 参考訳(メタデータ) (2024-10-29T00:28:02Z) - Simple is Effective: The Roles of Graphs and Large Language Models in Knowledge-Graph-Based Retrieval-Augmented Generation [9.844598565914055]
大きな言語モデル(LLM)は強い推論能力を示すが、幻覚や時代遅れの知識のような制限に直面している。
本稿では、サブグラフを検索する知識グラフ(KG)ベースのRetrieval-Augmented Generation(RAG)フレームワークを拡張するSubgraphRAGを紹介する。
提案手法は,高効率かつフレキシブルなサブグラフ検索を実現するために,並列3重装飾機構を備えた軽量多層パーセプトロンを革新的に統合する。
論文 参考訳(メタデータ) (2024-10-28T04:39:32Z) - Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free [21.59456761618456]
大規模言語モデル(LLM)は生成タスクに優れ、デコーダのみのアーキテクチャは、さらなる表現の微調整が適用されない場合、埋め込みモデルとしての可能性を制限することが多い。
我々の研究は、MoE LLMのエキスパートルータが、様々な組込みタスクに対して有望な性能を持つ既製の組込みモデルとして機能できることを示唆している。
論文 参考訳(メタデータ) (2024-10-14T17:59:44Z) - Scalable and Accurate Graph Reasoning with LLM-based Multi-Agents [27.4884498301785]
GraphAgent-Reasonerは、明示的で正確なグラフ推論のための微調整不要なフレームワークである。
分散グラフ計算理論にインスパイアされた我々のフレームワークは、グラフ問題を複数のエージェント間で分散される小さなノード中心のタスクに分解する。
本フレームワークは,Webページ重要度分析などの実世界のグラフ推論アプリケーションを扱う能力を示す。
論文 参考訳(メタデータ) (2024-10-07T15:34:14Z) - How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension [53.6373473053431]
この研究は、グラフパターンタスクにおける大規模言語モデルの能力を評価するためのベンチマークを導入する。
我々は,LLMが用語的記述と位相的記述の両方に基づいて,グラフパターンを理解できるかどうかを評価するベンチマークを開発した。
私たちのベンチマークでは、合成データセットと実際のデータセットの両方と、11のタスクと7のモデルで構成されています。
論文 参考訳(メタデータ) (2024-10-04T04:48:33Z) - How to Make LLMs Strong Node Classifiers? [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端(SOTA)GNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - Layerwise Recurrent Router for Mixture-of-Experts [42.36093735411238]
Mixture-of-Experts (MoE)アーキテクチャは、トレーニングコストを大幅に増加させることなく、モデルサイズをスケールできる能力で際立っている。
現在のMoEモデルはパラメータ非効率をしばしば表示する。
我々はMixture-of-Experts(RMoE)のためのLayerwise Recurrent Routerを紹介する。
論文 参考訳(メタデータ) (2024-08-13T10:25:13Z) - Dual-Channel Latent Factor Analysis Enhanced Graph Contrastive Learning for Recommendation [2.9449497738046078]
グラフニューラルネットワーク(GNN)は、推薦システムのための強力な学習方法である。
近年,コントラスト学習とGNNの統合は,レコメンデータシステムにおいて顕著な性能を示している。
本研究は,LFA-GCLと呼ばれる潜在因子分析(LFA)強化GCLアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-09T03:24:48Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - All Against Some: Efficient Integration of Large Language Models for Message Passing in Graph Neural Networks [51.19110891434727]
事前訓練された知識と強力なセマンティック理解能力を持つ大規模言語モデル(LLM)は、最近、視覚とテキストデータを使用してアプリケーションに恩恵をもたらす顕著な能力を示している。
E-LLaGNNは、グラフから限られたノード数を増やして、グラフ学習のメッセージパッシング手順を強化するオンデマンドLLMサービスを備えたフレームワークである。
論文 参考訳(メタデータ) (2024-07-20T22:09:42Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - KG-Agent: An Efficient Autonomous Agent Framework for Complex Reasoning
over Knowledge Graph [134.8631016845467]
我々は、KG-Agentと呼ばれる自律LLMベースのエージェントフレームワークを提案する。
KG-Agentでは、LLM、多機能ツールボックス、KGベースのエグゼキュータ、知識メモリを統合する。
有効性を保証するため、プログラム言語を利用してKG上のマルチホップ推論プロセスを定式化する。
論文 参考訳(メタデータ) (2024-02-17T02:07:49Z) - Can we Soft Prompt LLMs for Graph Learning Tasks? [22.286189757942054]
GraphPrompterは、グラフ情報とLLM(Large Language Models)をソフトプロンプトで整合させるように設計されたフレームワークである。
このフレームワークは、グラフ関連タスクの予測子としてLLMの実質的な機能を明らかにしている。
論文 参考訳(メタデータ) (2024-02-15T23:09:42Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z) - Integrating Graphs with Large Language Models: Methods and Prospects [68.37584693537555]
大規模言語モデル (LLMs) が最前線として登場し、様々なアプリケーションにおいて非並列の長所を示している。
LLMとグラフ構造化データを組み合わせることは、非常に興味深いトピックです。
本稿では、そのような統合を2つの主要なカテゴリに分岐する。
論文 参考訳(メタデータ) (2023-10-09T07:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。