論文の概要: Efficient Universal Perception Encoder
- arxiv url: http://arxiv.org/abs/2603.22387v2
- Date: Tue, 31 Mar 2026 17:57:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.058635
- Title: Efficient Universal Perception Encoder
- Title(参考訳): 効率的なユニバーサル知覚エンコーダ
- Authors: Chenchen Zhu, Saksham Suri, Cijo Jose, Maxime Oquab, Marc Szafraniec, Wei Wen, Yunyang Xiong, Patrick Labatut, Piotr Bojanowski, Raghuraman Krishnamoorthi, Vikas Chandra,
- Abstract要約: スマートエッジデバイス上でAIモデルを実行することで、汎用的なユーザエクスペリエンスを解放することができる。
提案手法は,多種多様な下流タスクに対して,推論効率と普遍的表現を両立させる,効率的なユニバーサル知覚(E)である。
- 参考スコア(独自算出の注目度): 31.73424964967759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Running AI models on smart edge devices can unlock versatile user experiences, but presents challenges due to limited compute and the need to handle multiple tasks simultaneously. This requires a vision encoder with small size but powerful and versatile representations. We present our method, Efficient Universal Perception Encoder (EUPE), which offers both inference efficiency and universally good representations for diverse downstream tasks. We achieve this by distilling from multiple domain-expert foundation vision encoders. Unlike previous agglomerative methods that directly scale down from multiple teachers to an efficient encoder, we demonstrate the importance of first scaling up to a large proxy teacher and then scaling down from this single teacher. Experiments show that EUPE achieves on-par or better performance than individual domain experts of the same size on diverse task domains and also outperforms previous agglomerative encoders. We release the full family of EUPE models and the code to foster future research.
- Abstract(参考訳): スマートエッジデバイス上でAIモデルを実行することで、汎用的なユーザエクスペリエンスを解放することができる。
これは、小さなサイズだが強力で汎用的な表現を持つ視覚エンコーダを必要とする。
本稿では,提案手法であるEUPE(Efficient Universal Perception Encoder)を提案する。
複数のドメイン・エキスパート・ファンデーション・ビジョン・エンコーダから蒸留することでこれを実現する。
複数の教師から効率的なエンコーダへ直接スケールダウンする従来の集合的手法とは異なり、我々はまず大規模なプロキシ教師にスケールアップし、次にこの1人の教師からスケールダウンすることの重要性を実証する。
実験の結果、EUPEはさまざまなタスクドメインで同じ大きさの個々のドメインエキスパートよりも高いパフォーマンスを実現しており、以前の集約エンコーダよりも優れています。
我々は、EUPEモデルの全ファミリーと、将来の研究を促進するためのコードをリリースします。
関連論文リスト
- METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models [92.37117312251755]
プログレッシブプルーニングフレームワークであるMulti-Encoder collaboraTivE tOken pRuning (METEOR)を提案する。
マルチビジョン符号化では,各エンコーダ内の冗長トークンをランク誘導型協調トークン代入戦略により破棄する。
マルチビジョン融合では、異なるエンコーダの視覚的特徴を組み合わせながら、コラボレーティブプルーニングによるクロスエンコーダ冗長性を低減させる。
論文 参考訳(メタデータ) (2025-07-28T13:50:53Z) - Mixpert: Mitigating Multimodal Learning Conflicts with Efficient Mixture-of-Vision-Experts [104.73983712940816]
マルチモーダル大言語モデル(MLLM)は複雑な画像情報のニュアンス解釈を必要とする。
多様なタスクドメインを扱うために、単一のビジョンエンコーダにのみ依存することは、困難であり、必然的に衝突につながることを証明します。
単一ビジョンエンコーダからジョイントラーニングの利点を継承する,効率的なミキシング・オブ・ビジョン・エキスパートアーキテクチャであるMixpertを導入する。
論文 参考訳(メタデータ) (2025-05-30T12:48:07Z) - A Shared Encoder Approach to Multimodal Representation Learning [17.863705872504]
医療領域に適したマルチモーダル表現学習のための共有エンコーダフレームワークを提案する。
提案手法では,モダリティ間で共有される1組のエンコーダパラメータを用い,学習可能なモダリティ特徴を付加する。
論文 参考訳(メタデータ) (2025-03-03T15:29:26Z) - MoVE-KD: Knowledge Distillation for VLMs with Mixture of Visual Encoders [28.22099619211775]
視覚エンコーダは視覚言語モデル(VLM)の基本コンポーネントである
近年の研究では、複数のエンコーダを単一のVLMに組み込んでおり、計算コストが大幅に増大している。
本稿では、複数の視覚エンコーダのユニークな習熟度を1つの効率的なエンコーダモデルに抽出する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-03T09:10:34Z) - Benchmarking Robust Self-Supervised Learning Across Diverse Downstream Tasks [9.207022068713867]
複数の下流タスクにまたがる自己監督型視覚エンコーダの対向ロバスト性に関する包括的実証評価を行った。
我々の攻撃はエンコーダの埋め込みスペースと下流タスク出力レベルで動作する。
基礎モデルの目的は一度に複数のアプリケーションに対応することであるため,より広範にエンコーダの堅牢性を高める必要性が明らかとなった。
論文 参考訳(メタデータ) (2024-07-17T14:12:34Z) - AM-RADIO: Agglomerative Vision Foundation Model -- Reduce All Domains Into One [47.58919672657824]
このアプローチをAM-RADIO(Agglomerative Model -- すべてのドメインを1に還元する)と名付けます。
教師モデルより少なくとも7倍高速な新しいアーキテクチャ(E-RADIO)を開発した。
包括的なベンチマークプロセスでは、ImageNet分類、ADE20kセマンティックセグメンテーション、COCOオブジェクト検出、LLaVa-1.5フレームワークなどの下流タスクをカバーしています。
論文 参考訳(メタデータ) (2023-12-10T17:07:29Z) - String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。
本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。
実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文 参考訳(メタデータ) (2022-08-23T03:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。