論文の概要: Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model
- arxiv url: http://arxiv.org/abs/2406.19905v1
- Date: Fri, 28 Jun 2024 13:20:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 16:40:26.098903
- Title: Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model
- Title(参考訳): 大規模ビジョンランゲージモデルのための混合実験におけるToken Gradient Conflictの解法
- Authors: Longrong Yang, Dong Sheng, Chaoxiang Cai, Fan Yang, Size Li, Di Zhang, Xi Li,
- Abstract要約: 大規模視覚言語モデル(LVLM)研究において,Mixture-of-Experts(MoE)が注目されている。
LVLMの既存のMoEメソッドは、異なる専門家に異なるトークンを扱うよう促すため、ルータを使用して各トークンのルーティングを予測する。
本稿ではトークンレベルの勾配解析に基づく新しい手法を提案する。
- 参考スコア(独自算出の注目度): 10.682263930467196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Mixture-of-Experts (MoE) has gained increasing attention in the study of Large Vision-Language Models (LVLMs). It uses a sparse model to replace the dense model, achieving comparable performance while activating fewer parameters during inference, thus significantly reducing the inference cost. Existing MoE methods in LVLMs encourage different experts to handle different tokens, and thus they employ a router to predict the routing for each token. However, the predictions are based solely on sample features and do not truly reveal the optimization direction of tokens. This can lead to severe optimization conflicts between different tokens within an expert. To address this problem, this paper proposes a novel method based on token-level gradient analysis. Specifically, we first use token-level gradients to identify conflicting tokens in experts. Then, we add a specialized loss tailored to eliminate conflicts among tokens within each expert. Our method can serve as a plug-in for diverse Large Vision-Language Models, and extensive experimental results demonstrate the effectiveness of our method. The code will be publicly available at https://github.com/longrongyang/STGC.
- Abstract(参考訳): The Mixture-of-Experts (MoE)はLVLM(Large Vision-Language Models)の研究で注目を集めている。
厳密なモデルを置き換えるためにスパースモデルを使用し、推論中に少ないパラメータをアクティベートしながら同等のパフォーマンスを実現し、推論コストを大幅に削減する。
LVLMの既存のMoEメソッドは、異なる専門家に異なるトークンを扱うよう促すため、ルータを使用して各トークンのルーティングを予測する。
しかし、予測はサンプル機能のみに基づいており、トークンの最適化方向を真に明らかにしていない。
これはエキスパート内の異なるトークン間の深刻な最適化の衝突を引き起こす可能性がある。
そこで本研究ではトークンレベルの勾配解析に基づく新しい手法を提案する。
具体的には、まずトークンレベルの勾配を使用して、専門家の矛盾するトークンを特定します。
そして、各専門家内のトークン間の衝突を排除するように調整された、特別な損失を追加します。
本手法は多種多様な視覚・言語モデルのためのプラグインとして機能し,本手法の有効性を実験的に検証した。
コードはhttps://github.com/longrongyang/STGCで公開されている。
関連論文リスト
- Jakiro: Boosting Speculative Decoding with Decoupled Multi-Head via MoE [15.003006630308517]
投機的復号(SD)は、より小さなドラフトモデルを用いて複数のトークンを予測することで、大きな言語モデル推論を加速する。
本稿では,専門家の混在(Mixture of Experts, MoE)を利用したJakiroを提案する。
提案手法は予測精度を大幅に向上し,推論高速化を実現する。
論文 参考訳(メタデータ) (2025-02-10T09:24:06Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Disentangling Reasoning Tokens and Boilerplate Tokens For Language Model Fine-tuning [46.43130011147807]
特に、トークンとボイラープレートトークンの推論は、重要性と学習の複雑さにおいて大きく異なります。
本稿では,適応トークン識別のための新しいShuffle-Aware Discriminator (SHAD)を提案する。
SHADを用いて、微調整中の推論トークンを適応的に強調するReasoning-Highlighted Fine-Tuning (RFT)法を提案する。
論文 参考訳(メタデータ) (2024-12-19T12:06:24Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Faster Language Models with Better Multi-Token Prediction Using Tensor Decomposition [5.575078692353885]
本稿では, 精度を損なうことなくサンプリング効率を向上させることを目的とした, 変圧器のマルチトークン予測のための新しいモデルを提案する。
階数=r$標準確率分解に一般化することにより、複数のトークンを同時に予測する改良されたモデルを開発する。
論文 参考訳(メタデータ) (2024-10-23T11:06:36Z) - GW-MoE: Resolving Uncertainty in MoE Router with Global Workspace Theory [49.536752342048075]
モデルのスケールアップに有効な方法として,Mixture-of-Experts (MoE) が実証されている。
本稿では,この問題に対処する新しい微調整手法GW-MoEを提案する。
論文 参考訳(メタデータ) (2024-06-18T08:03:51Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - EMS-SD: Efficient Multi-sample Speculative Decoding for Accelerating Large Language Models [40.651650382105636]
Vanillaメソッドは、サンプル間で新しいトークンの数が一貫していることを保証するために、パディングトークンを追加する。
本稿では,メモリや計算のオーバーヘッドを増大させることなく,異なるサンプルで受け入れられる不整合トークンの問題を解決する手法を提案する。
提案手法は, パディングトークンを追加することなく, 異なるサンプルの予測トークンが矛盾する状況に対処できる。
論文 参考訳(メタデータ) (2024-05-13T08:24:21Z) - Hot or Cold? Adaptive Temperature Sampling for Code Generation with
Large Language Models [54.72004797421481]
コード生成に特化したデコード戦略を検討するために、最初の体系的な研究を行う。
以上の知見に触発されて,適応温度(AdapT)サンプリング法を提案する。
その結果,AdapTサンプリングは最先端の復号化戦略を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-06T06:27:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。