論文の概要: InfiGFusion: Graph-on-Logits Distillation via Efficient Gromov-Wasserstein for Model Fusion
- arxiv url: http://arxiv.org/abs/2505.13893v1
- Date: Tue, 20 May 2025 03:55:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.665077
- Title: InfiGFusion: Graph-on-Logits Distillation via Efficient Gromov-Wasserstein for Model Fusion
- Title(参考訳): InfiGFusion: モデル融合のための効率的なGromov-Wassersteinによるグラフオンロジット蒸留
- Authors: Yuanyi Wang, Zhaoyi Yan, Yiming Zhang, Qi Zhou, Yanggan Gu, Fei Wu, Hongxia Yang,
- Abstract要約: InfiGFusionは、新しいtextitGraph-on-Logits Distillation (GLD)損失を持つ構造認識融合フレームワークである。
GLDは核融合品質と安定性を継続的に改善することを示す。
複雑な推論タスクでは、多段階算術において+35.6、SFT上の因果判定において+37.06が改良された。
- 参考スコア(独自算出の注目度): 36.27704594180795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have intensified efforts to fuse heterogeneous open-source models into a unified system that inherits their complementary strengths. Existing logit-based fusion methods maintain inference efficiency but treat vocabulary dimensions independently, overlooking semantic dependencies encoded by cross-dimension interactions. These dependencies reflect how token types interact under a model's internal reasoning and are essential for aligning models with diverse generation behaviors. To explicitly model these dependencies, we propose \textbf{InfiGFusion}, the first structure-aware fusion framework with a novel \textit{Graph-on-Logits Distillation} (GLD) loss. Specifically, we retain the top-$k$ logits per output and aggregate their outer products across sequence positions to form a global co-activation graph, where nodes represent vocabulary channels and edges quantify their joint activations. To ensure scalability and efficiency, we design a sorting-based closed-form approximation that reduces the original $O(n^4)$ cost of Gromov-Wasserstein distance to $O(n \log n)$, with provable approximation guarantees. Experiments across multiple fusion settings show that GLD consistently improves fusion quality and stability. InfiGFusion outperforms SOTA models and fusion baselines across 11 benchmarks spanning reasoning, coding, and mathematics. It shows particular strength in complex reasoning tasks, with +35.6 improvement on Multistep Arithmetic and +37.06 on Causal Judgement over SFT, demonstrating superior multi-step and relational inference.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、異種オープンソースモデルを相補的な強みを継承する統一システムに融合する努力を強めている。
既存のロジットベースの融合法では推論効率は維持されるが、語彙次元は独立に扱う。
これらの依存関係は、トークンタイプがモデルの内部的推論の下でどのように相互作用するかを反映しており、モデルとさまざまな世代行動の整合に不可欠である。
これらの依存関係を明示的にモデル化するために,新規なGLD損失を伴う構造認識融合フレームワークである‘textbf{InfiGFusion} を提案する。
具体的には、出力当たりのトップ$kのロジットを保持し、その外部積をシーケンス位置で集約してグローバルなコアクティベーショングラフを作り、ノードは語彙チャネルとエッジを表現し、それらの共同活性化を定量化する。
スケーラビリティと効率性を確保するため,Gromov-Wasserstein距離のオリジナルの$O(n^4)$コストを$O(n \log n)$に削減するソート方式のクローズドフォーム近似を設計する。
複数の核融合設定における実験により、GLDは核融合の品質と安定性を一貫して改善することが示された。
InfiGFusionは、推論、コーディング、数学にまたがる11のベンチマークでSOTAモデルと融合ベースラインを上回っている。
これは複雑な推論タスクにおいて特に強みを示し、多段階算術において+35.6、SFT上の因果判定において+37.06が改善され、より優れた多段階および関係推論を示す。
関連論文リスト
- $α$-Flow: A Unified Framework for Continuous-State Discrete Flow Matching Models [8.705749038874137]
この研究は、連続状態離散フローマッチングモデルのための統一されたフレームワークを提示します。
統計多様体の標準 $alpha$-geometry に固執する CS-DFM モデルのファミリである $alpha$-Flow を導入する。
我々は,$alpha$-flowのフローマッチング損失が,離散的な負の対数類似度に対して統一的な変動境界を確立することを示す。
論文 参考訳(メタデータ) (2025-04-14T14:51:45Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Flag Aggregator: Scalable Distributed Training under Failures and
Augmented Losses using Convex Optimization [14.732408788010313]
MLアプリケーションはますます、複雑なディープラーニングモデルと大規模なデータセットに依存している。
計算とデータをスケールするために、これらのモデルはノードのクラスタ内で分散的にトレーニングされ、それらの更新はモデルに適用される前に集約される。
これらの設定にデータ拡張を加えることで、堅牢で効率的なアグリゲーションシステムが必要である。
この手法は,最先端のビザンツ系レジリエントアグリゲータのロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-02-12T06:38:30Z) - FeDXL: Provable Federated Learning for Deep X-Risk Optimization [105.17383135458897]
我々は、既存のアルゴリズムが適用できないXリスクのファミリーを最適化するために、新しい連邦学習(FL)問題に取り組む。
Xリスクに対するFLアルゴリズムを設計する際の課題は、複数のマシンに対する目的の非可逆性と、異なるマシン間の相互依存にある。
論文 参考訳(メタデータ) (2022-10-26T00:23:36Z) - Efficient semidefinite bounds for multi-label discrete graphical models [6.226454551201676]
このようなモデルにおける主要なクエリの1つは、Posteri(MAP)ネットワークのコストに関するSDPWCSP関数を特定することである。
従来の二重化制約手法と,行ごとの更新に基づく専用SDP/Monteiroスタイルの手法を検討する。
論文 参考訳(メタデータ) (2021-11-24T13:38:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。