論文の概要: Scope: Selective Cross-modal Orchestration of Visual Perception Experts
- arxiv url: http://arxiv.org/abs/2510.12974v1
- Date: Tue, 14 Oct 2025 20:33:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.412845
- Title: Scope: Selective Cross-modal Orchestration of Visual Perception Experts
- Title(参考訳): Scope: 視覚的知覚エキスパートの選択的なクロスモーダルオーケストレーション
- Authors: Tianyu Zhang, Suyuchen Wang, Chao Wang, Juan Rodriguez, Ahmed Masry, Xiangru Jian, Yoshua Bengio, Perouz Taslakian,
- Abstract要約: SCOPEはMixture-of-Encodersフレームワークで、インスタンスレベルのルーティングを通じて画像テキストペアごとに1つの特別なエンコーダを動的に選択する。
軽量ルータは、テキストプロンプトと共有視覚特徴間の相互アテンションを使用して、ルーティングされたエンコーダから最適なエンコーダを選択する。
注目すべきは、共有された1つプラス1つのルーティングエンコーダを持つSCOPEは、4つの余分なエンコーダを同時に使用し、計算量を24-49%削減する。
- 参考スコア(独自算出の注目度): 51.29218658993354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) benefit from multiple vision encoders, but naively stacking them yields diminishing returns while multiplying inference costs. We propose SCOPE, a Mixture-of-Encoders (MoEnc) framework that dynamically selects one specialized encoder per image-text pair via instance-level routing, unlike token-level routing in traditional MoE. SCOPE maintains a shared encoder and a pool of routed encoders. A lightweight router uses cross-attention between text prompts and shared visual features to select the optimal encoder from the routed encoders. To train this router, we introduce dual entropy regularization with auxiliary losses to balance dataset-level load distribution with instance-level routing confidence. Remarkably, SCOPE with one shared plus one routed encoder outperforms models using all four extra encoders simultaneously, while reducing compute by 24-49\%. This demonstrates that intelligent encoder selection beats brute-force aggregation, challenging the prevailing paradigm in multi-encoder VLMs.
- Abstract(参考訳): ヴィジュアル言語モデル(VLM)は複数のヴィジュアルエンコーダの恩恵を受けるが、ネーティブに積み重ねると、推論コストを乗算しながらリターンが減少する。
従来のMoEではトークンレベルのルーティングとは異なり、インスタンスレベルのルーティングによって、画像テキストペアごとに1つの特別なエンコーダを動的に選択できるSCOPE(Mixture-of-Encoders)フレームワークを提案する。
SCOPEは共有エンコーダとルーティングエンコーダのプールを維持している。
軽量ルータは、テキストプロンプトと共有視覚特徴間の相互アテンションを使用して、ルーティングされたエンコーダから最適なエンコーダを選択する。
このルータをトレーニングするために、データセットレベルの負荷分布とインスタンスレベルのルーティング信頼性のバランスをとるために、補助的損失を伴う二重エントロピー正規化を導入する。
注目すべきは、共有された1つプラス1つのルーティングエンコーダを持つSCOPEは、4つの余分なエンコーダをすべて同時に使用し、計算を24-49\%削減する。
このことは、インテリジェントエンコーダの選択がブルートフォースアグリゲーションを破り、マルチエンコーダVLMの主流パラダイムに挑戦していることを示している。
関連論文リスト
- METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models [92.37117312251755]
プログレッシブプルーニングフレームワークであるMulti-Encoder collaboraTivE tOken pRuning (METEOR)を提案する。
マルチビジョン符号化では,各エンコーダ内の冗長トークンをランク誘導型協調トークン代入戦略により破棄する。
マルチビジョン融合では、異なるエンコーダの視覚的特徴を組み合わせながら、コラボレーティブプルーニングによるクロスエンコーダ冗長性を低減させる。
論文 参考訳(メタデータ) (2025-07-28T13:50:53Z) - Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。
提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文 参考訳(メタデータ) (2024-03-19T19:27:23Z) - String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。
本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。
実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文 参考訳(メタデータ) (2022-08-23T03:56:30Z) - Scheduled Sampling in Vision-Language Pretraining with Decoupled
Encoder-Decoder Network [99.03895740754402]
本稿では,2つの切り離されたクロスモーダルエンコーダとデコーダが関与するエンコーダ・デコーダ構造の2ストリーム分離設計を提案する。
その代替として,2パス方式でエンコーダデコーダを事前学習することで,そのような不一致を緩和する一次サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2021-01-27T17:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。