論文の概要: Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model
- arxiv url: http://arxiv.org/abs/2406.19905v3
- Date: Sat, 15 Mar 2025 03:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:32:24.108383
- Title: Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model
- Title(参考訳): 大規模ビジョンランゲージモデルのための混合実験におけるToken Gradient Conflictの解法
- Authors: Longrong Yang, Dong Shen, Chaoxiang Cai, Fan Yang, Tingting Gao, Di Zhang, Xi Li,
- Abstract要約: トークンレベルの勾配分析を用いて、専門家の矛盾するトークンを識別する。
次に、現在の専門家から他の専門家へのルーティングに矛盾するトークンを促進するように調整された正規化損失を追加します。
本手法は,多種多様な視覚・言語モデルのためのプラグインとして機能する。
- 参考スコア(独自算出の注目度): 22.103850646343915
- License:
- Abstract: The Mixture-of-Experts (MoE) has gained increasing attention in studying Large Vision-Language Models (LVLMs). It uses a sparse model to replace the dense model, achieving comparable performance while activating fewer parameters during inference, thus significantly reducing the inference cost. Existing MoE methods in LVLM encourage different experts to specialize in different tokens, and they usually employ a router to predict the routing of each token. However, the router is not optimized concerning distinct parameter optimization directions generated from tokens within an expert. This may lead to severe interference between tokens within an expert. To address this problem, we propose to use the token-level gradient analysis to Solving Token Gradient Conflict (STGC) in this paper. Specifically, we first use token-level gradients to identify conflicting tokens in experts. After that, we add a regularization loss tailored to encourage conflicting tokens routing from their current experts to other experts, for reducing interference between tokens within an expert. Our method can serve as a plug-in for diverse LVLM methods, and extensive experimental results demonstrate its effectiveness. The code will be publicly available at https://github.com/longrongyang/STGC.
- Abstract(参考訳): The Mixture-of-Experts (MoE)は、LVLM(Large Vision-Language Models)の研究において注目を集めている。
厳密なモデルを置き換えるためにスパースモデルを使用し、推論中に少ないパラメータをアクティベートしながら同等のパフォーマンスを実現し、推論コストを大幅に削減する。
LVLMの既存のMoEメソッドは、異なる専門家に異なるトークンを専門にすることを奨励し、通常はルータを使用して各トークンのルーティングを予測する。
しかし、ルータは専門家のトークンから生成されるパラメータの最適化方向について最適化されていない。
これは専門家内のトークン間で深刻な干渉を引き起こす可能性がある。
そこで本稿では,トークンレベルの勾配解析をSTGC(Solving Token Gradient Conflict)に適用することを提案する。
具体的には、まずトークンレベルの勾配を使用して、専門家の矛盾するトークンを特定します。
その後、専門家内のトークン間の干渉を減らすために、現在の専門家から他の専門家へのトークンルーティングの競合を促進するように調整された正規化損失を追加します。
本手法は多様なLVLM法のためのプラグインとして機能し,その有効性を示した。
コードはhttps://github.com/longrongyang/STGCで公開されている。
関連論文リスト
- Jakiro: Boosting Speculative Decoding with Decoupled Multi-Head via MoE [15.003006630308517]
投機的復号(SD)は、より小さなドラフトモデルを用いて複数のトークンを予測することで、大きな言語モデル推論を加速する。
本稿では,専門家の混在(Mixture of Experts, MoE)を利用したJakiroを提案する。
提案手法は予測精度を大幅に向上し,推論高速化を実現する。
論文 参考訳(メタデータ) (2025-02-10T09:24:06Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Disentangling Reasoning Tokens and Boilerplate Tokens For Language Model Fine-tuning [46.43130011147807]
特に、トークンとボイラープレートトークンの推論は、重要性と学習の複雑さにおいて大きく異なります。
本稿では,適応トークン識別のための新しいShuffle-Aware Discriminator (SHAD)を提案する。
SHADを用いて、微調整中の推論トークンを適応的に強調するReasoning-Highlighted Fine-Tuning (RFT)法を提案する。
論文 参考訳(メタデータ) (2024-12-19T12:06:24Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Faster Language Models with Better Multi-Token Prediction Using Tensor Decomposition [5.575078692353885]
本稿では, 精度を損なうことなくサンプリング効率を向上させることを目的とした, 変圧器のマルチトークン予測のための新しいモデルを提案する。
階数=r$標準確率分解に一般化することにより、複数のトークンを同時に予測する改良されたモデルを開発する。
論文 参考訳(メタデータ) (2024-10-23T11:06:36Z) - GW-MoE: Resolving Uncertainty in MoE Router with Global Workspace Theory [49.536752342048075]
モデルのスケールアップに有効な方法として,Mixture-of-Experts (MoE) が実証されている。
本稿では,この問題に対処する新しい微調整手法GW-MoEを提案する。
論文 参考訳(メタデータ) (2024-06-18T08:03:51Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - EMS-SD: Efficient Multi-sample Speculative Decoding for Accelerating Large Language Models [40.651650382105636]
Vanillaメソッドは、サンプル間で新しいトークンの数が一貫していることを保証するために、パディングトークンを追加する。
本稿では,メモリや計算のオーバーヘッドを増大させることなく,異なるサンプルで受け入れられる不整合トークンの問題を解決する手法を提案する。
提案手法は, パディングトークンを追加することなく, 異なるサンプルの予測トークンが矛盾する状況に対処できる。
論文 参考訳(メタデータ) (2024-05-13T08:24:21Z) - Hot or Cold? Adaptive Temperature Sampling for Code Generation with
Large Language Models [54.72004797421481]
コード生成に特化したデコード戦略を検討するために、最初の体系的な研究を行う。
以上の知見に触発されて,適応温度(AdapT)サンプリング法を提案する。
その結果,AdapTサンプリングは最先端の復号化戦略を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-06T06:27:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。