論文の概要: SDG-MoE: Signed Debate Graph Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2605.08322v1
- Date: Fri, 08 May 2026 16:25:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.565666
- Title: SDG-MoE: Signed Debate Graph Mixture-of-Experts
- Title(参考訳): SDG-MoE: 議論のグラフの混合--Experts
- Authors: Stepan Kulibaba, Kirill Labzin, Artem Dzhalilov, Roman Pakhomov, Oleg Svidchenko, Alexander Gansnikov, Aleksei Shpilman,
- Abstract要約: ほとんどのMoEアーキテクチャでは、トークンがルーティングされると、選択された専門家が独立してそれを処理し、その出力は重み付けされた和で結合される。
最終集計の前に,軽量かつ反復的な検討段階を付加する新しいアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 34.03554099535982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse MoE models achieve a good balance between capacity and compute by routing each token to a small subset of experts. However, in most MoE architectures, once a token is routed, the selected experts process it independently and their outputs are combined via a weighted sum. This leaves open whether enabling communication among them could improve performance. While prior work has raised this question, direct interaction among the active routed experts remains underexplored. In this paper, we propose SDG-MoE (Signed Debate Graph Mixture-of-Experts), a novel architecture that adds a lightweight, iterative deliberation step before final aggregation. SDG-MoE introduces three components: (i) two learned interaction matrices over the active experts, a support graph $A^+$ and a critique graph $A^-$, capturing reinforcing and corrective influences; (ii) a signed message-passing step that updates expert representations before aggregation; and (iii) a disagreement-gated Friedkin-Johnsen-style anchoring that controls deliberation strength while preventing expert drift. Together, these enable a structured deliberation process where interaction strength scales with disagreement and specialization is preserved. We also provide a theoretical analysis establishing stability conditions on expert states and showing that deliberation adds only low-order overhead over the active set. In controlled three-seed pretraining experiments, SDG-MoE improves validation perplexity over both an unsigned graph communication baseline and vanilla MoE, outperforming the strongest baseline by 19.8%, and gives the best external perplexity on WikiText-103, C4, and Paloma among the compared systems.
- Abstract(参考訳): スパースMoEモデルは、各トークンを専門家の小さなサブセットにルーティングすることで、キャパシティと計算のバランスを良くする。
しかし、ほとんどのMoEアーキテクチャでは、トークンがルートされると、選択された専門家が独立してそれを処理し、その出力は重み付けされた和で結合される。
これにより、それらの間のコミュニケーションがパフォーマンスを向上させるかどうかが明らかになる。
以前の研究でこの疑問が持ち上がったが、アクティブなルートの専門家間の直接の相互作用は未解明のままである。
本稿では,SDG-MoE(Signed Debate Graph Mixture-of-Experts)を提案する。
SDG-MoEは3つのコンポーネントを導入している。
(i)アクティブな専門家に対する2つの学習された相互作用行列、サポートグラフ$A^+$、批判グラフ$A^-$、強化と修正の影響を捉えます。
(ii)アグリゲーションの前に専門家表現を更新する署名されたメッセージパッシングステップ
三 専門家の漂流を防止しつつ、熟考の強さを抑える不一致のフリードキン・ジョンセン式アンカー。
これらを合わせて、相互作用強度が不一致や特殊化とともにスケールする構造化された検討プロセスを可能にする。
また、専門家状態の安定性条件を確立する理論解析を行い、議論がアクティブな集合に対する低次オーバーヘッドのみを付加することを示す。
SDG-MoEは、制御された3種類の事前訓練実験において、符号なしグラフ通信ベースラインとバニラMoEの両方の検証パープレキシティを改善し、最強のベースラインを19.8%上回り、WikiText-103、C4、Palomaで最高の外部パープレキシティを提供する。
関連論文リスト
- Modality as Heterogeneity: Node Splitting and Graph Rewiring for Multimodal Graph Learning [10.65673380743972]
本稿では,ノード分割とグラフ交換機構を統合したマルチモーダルグラフ学習フレームワークNSG(Node Splitting Graph)-MoEを提案する。
各ノードをモダリティ固有のコンポーネントに明示的に分解し、不均一なメッセージフローを処理するためにリレーションアウェアの専門家を割り当てる。
3つのマルチモーダルベンチマークの実験は、NSG-MoEが強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2026-01-20T13:38:50Z) - CoG: Controllable Graph Reasoning via Relational Blueprints and Failure-Aware Refinement over Knowledge Graphs [53.199517625701475]
CoGはDual-Process Theoryにインスパイアされたトレーニング不要のフレームワークで、直観と熟考の相互作用を模倣している。
CoGは精度と効率の両方において最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-16T07:27:40Z) - From Graphs to Hypergraphs: Enhancing Aspect-Based Sentiment Analysis via Multi-Level Relational Modeling [0.04349640169711269]
サンプル固有階層クラスタリングによりアスペクトオピニオン構造を誘導する動的ハイパーグラフフレームワークであるHyperABSAを提案する。
3つのベンチマークの実験では、強力なグラフベースラインよりも一貫した改善が見られた。
論文 参考訳(メタデータ) (2025-11-18T05:01:25Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Enhancing CTR Prediction with De-correlated Expert Networks [45.50697497028273]
本稿では,専門的相関を最小化するクロスエキスパートデコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレー
我々はD-MoEがMulti-Embedding MoEベースラインと比較して1.19%のGross Merchandise Volume (GMV)リフトを達成することを示す。
論文 参考訳(メタデータ) (2025-05-23T14:04:38Z) - Dependency Structure Augmented Contextual Scoping Framework for Multimodal Aspect-Based Sentiment Analysis [9.240806100782718]
DASCOは、感情分析のためのきめ細かいスコープ指向のフレームワークである。
依存性解析ツリーを活用することで、アスペクトレベルの感情推論を強化する。
2つのベンチマークデータセットの実験は、DASCOがMABSAで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-15T16:05:09Z) - Expert-Token Resonance MoE: Bidirectional Routing with Efficiency Affinity-Driven Active Selection [19.365009652356793]
エキスパート-トークン共鳴(ETR)は、専門家-トークン相互作用を再想像する理論的な双方向ルーティング機構である。
ETRは、ベースラインのMoE実装と比較して、エンドツーエンドのトレーニング効率が5.4%-46.6%向上している。
論文 参考訳(メタデータ) (2024-05-24T02:50:44Z) - Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z) - A Novel Energy based Model Mechanism for Multi-modal Aspect-Based
Sentiment Analysis [85.77557381023617]
マルチモーダル感情分析のための新しいフレームワークDQPSAを提案する。
PDQモジュールは、プロンプトをビジュアルクエリと言語クエリの両方として使用し、プロンプト対応の視覚情報を抽出する。
EPEモジュールはエネルギーベースモデルの観点から解析対象の境界ペアリングをモデル化する。
論文 参考訳(メタデータ) (2023-12-13T12:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。