Fugu-MT 論文翻訳(概要): Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model

論文の概要: Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model

arxiv url: http://arxiv.org/abs/2406.19905v2
Date: Mon, 5 Aug 2024 12:12:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-06 20:38:40.900194
Title: Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model
Title（参考訳）: 大規模ビジョンランゲージモデルのための混合実験におけるToken Gradient Conflictの解法
Authors: Longrong Yang, Dong Shen, Chaoxiang Cai, Fan Yang, Size Li, Di Zhang, Xi Li,
Abstract要約: 大規模視覚言語モデル(LVLM)の研究において、Mixture-of-Experts(MoE)が注目を集めている。 LVLMの既存のMoEメソッドは、異なる専門家に異なるトークンを扱うように促し、通常、各トークンのルーティングを予測するためにルータを使用する。本稿ではトークンレベルの勾配解析に基づく新しい手法,すなわち解決トークンのグラディエント・コンフリクト(STGC)を提案する。
参考スコア（独自算出の注目度）: 20.979790612689992
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Mixture-of-Experts (MoE) has gained increasing attention in studying Large Vision-Language Models (LVLMs). It uses a sparse model to replace the dense model, achieving comparable performance while activating fewer parameters during inference, thus significantly reducing the inference cost. Existing MoE methods in LVLMs encourage different experts to handle different tokens, and they usually employ a router to predict the routing of each token. However, the predictions are based solely on sample features and do not truly reveal the optimization directions of tokens. This may lead to severe optimization interference between different tokens assigned to an expert. To address this problem, this paper proposes a novel method based on token-level gradient analysis, i.e., Solving Token Gradient Conflict (STGC). Specifically, we first use token-level gradients to identify conflicting tokens in experts. After that, we add a specialized loss tailored to eliminate conflicts among tokens within each expert. Our method can serve as a plug-in for diverse Large Vision-Language Models, and extensive experimental results demonstrate its effectiveness. The code will be publicly available at https://github.com/longrongyang/STGC.
Abstract（参考訳）: The Mixture-of-Experts (MoE)は、LVLM(Large Vision-Language Models)の研究において注目を集めている。厳密なモデルを置き換えるためにスパースモデルを使用し、推論中に少ないパラメータをアクティベートしながら同等のパフォーマンスを実現し、推論コストを大幅に削減する。 LVLMの既存のMoEメソッドは、異なる専門家に異なるトークンを扱うように促し、通常、各トークンのルーティングを予測するためにルータを使用する。しかし、予測はサンプル機能のみに基づいており、トークンの最適化方向を真に明らかにしていない。これにより、専門家に割り当てられた異なるトークン間の厳しい最適化の干渉につながる可能性がある。この問題に対処するために,トークンレベルの勾配解析に基づく新しい手法,すなわちSolving Token Gradient Conflict (STGC)を提案する。具体的には、まずトークンレベルの勾配を使用して、専門家の矛盾するトークンを特定します。その後、各専門家内のトークン間の衝突を排除するように調整された、特別な損失を追加します。本手法は多種多様な視覚・言語モデルのためのプラグインとして機能し,その効果を実験的に検証した。コードはhttps://github.com/longrongyang/STGCで公開されている。

関連論文リスト

Token-Level Prompt Mixture with Parameter-Free Routing for Federated Domain Generalization [51.562474873972086]
Federated Domain Generalization (FedDG)は、異種データを持つ分散クライアントからグローバルに一般化可能なモデルを学ぶことを目的としている。近年の研究では、単一のグローバルなプロンプトを学習することで、FedDGの視覚言語モデル(VLM)を適応させる素早い学習が導入されている。本稿では,FedDGのためのパラメータフリールーティングフレームワークであるTRIPを提案する。
論文参考訳（メタデータ） (2025-04-29T11:06:03Z)
Demystifying Singular Defects in Large Language Models [61.98878352956125]
大規模言語モデル(LLM)では、ハイノームトークンの根本原因は未解明のままである。理論的な洞察と経験的検証の両方を、近年のモデルで提供します。量子化方式の改良とLCMシグネチャの設計の2つの実用的応用について述べる。
論文参考訳（メタデータ） (2025-02-10T20:09:16Z)
Disentangling Reasoning Tokens and Boilerplate Tokens For Language Model Fine-tuning [46.43130011147807]
特に、トークンとボイラープレートトークンの推論は、重要性と学習の複雑さにおいて大きく異なります。本稿では,適応トークン識別のための新しいShuffle-Aware Discriminator (SHAD)を提案する。 SHADを用いて、微調整中の推論トークンを適応的に強調するReasoning-Highlighted Fine-Tuning (RFT)法を提案する。
論文参考訳（メタデータ） (2024-12-19T12:06:24Z)
Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-11-29T18:58:22Z)
NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。 NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文参考訳（メタデータ） (2024-11-08T20:11:24Z)
Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。 VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文参考訳（メタデータ） (2024-11-05T18:54:21Z)
FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文参考訳（メタデータ） (2024-10-27T15:53:49Z)
Faster Language Models with Better Multi-Token Prediction Using Tensor Decomposition [5.575078692353885]
本稿では, 精度を損なうことなくサンプリング効率を向上させることを目的とした, 変圧器のマルチトークン予測のための新しいモデルを提案する。階数=r$標準確率分解に一般化することにより、複数のトークンを同時に予測する改良されたモデルを開発する。
論文参考訳（メタデータ） (2024-10-23T11:06:36Z)
GW-MoE: Resolving Uncertainty in MoE Router with Global Workspace Theory [49.536752342048075]
モデルのスケールアップに有効な方法として,Mixture-of-Experts (MoE) が実証されている。本稿では,この問題に対処する新しい微調整手法GW-MoEを提案する。
論文参考訳（メタデータ） (2024-06-18T08:03:51Z)
TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。 TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文参考訳（メタデータ） (2024-05-27T05:45:51Z)
EMS-SD: Efficient Multi-sample Speculative Decoding for Accelerating Large Language Models [40.651650382105636]
Vanillaメソッドは、サンプル間で新しいトークンの数が一貫していることを保証するために、パディングトークンを追加する。本稿では,メモリや計算のオーバーヘッドを増大させることなく,異なるサンプルで受け入れられる不整合トークンの問題を解決する手法を提案する。提案手法は, パディングトークンを追加することなく, 異なるサンプルの予測トークンが矛盾する状況に対処できる。
論文参考訳（メタデータ） (2024-05-13T08:24:21Z)
Hot or Cold? Adaptive Temperature Sampling for Code Generation with Large Language Models [54.72004797421481]
コード生成に特化したデコード戦略を検討するために、最初の体系的な研究を行う。以上の知見に触発されて,適応温度(AdapT)サンプリング法を提案する。その結果,AdapTサンプリングは最先端の復号化戦略を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2023-09-06T06:27:33Z)
Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient for Convolutional Neural Networks [74.68583356645276]
ディープラーニングでは、Mixix-of-experts(MoE)が、サンプル単位またはトーケン単位で専門家(サブネットワーク)を活性化する。我々は,pMoEが適切な一般化を実現するために,必要なトレーニングサンプル数を確実に削減できることを初めて示す。
論文参考訳（メタデータ） (2023-06-07T00:16:10Z)
On the Representation Collapse of Sparse Mixture of Experts [102.83396489230375]
専門家のまばらな混合は、一定の計算オーバーヘッドを必要としながら、より大きなモデルキャパシティを提供する。入力トークンを隠された表現に従ってベストマッチした専門家に分散するためにルーティング機構を使用する。しかし、そのようなルーティングメカニズムを学ぶことで、専門家のセントロイドを中心にトークンのクラスタリングが促進され、表現の崩壊の傾向が示唆される。
論文参考訳（メタデータ） (2022-04-20T01:40:19Z)
Mixture-of-Experts with Expert Choice Routing [44.777850078713634]
以前の作業では、トップk関数を使用して各トークンに一定数の専門家を割り当てていた。本稿では,専門家選択手法を用いた異種混合実験を提案する。本手法は, トレーニング収束時間を2倍以上改善する。
論文参考訳（メタデータ） (2022-02-18T17:46:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。