論文の概要: ToVE: Efficient Vision-Language Learning via Knowledge Transfer from Vision Experts
- arxiv url: http://arxiv.org/abs/2504.00691v1
- Date: Tue, 01 Apr 2025 12:02:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:55.120780
- Title: ToVE: Efficient Vision-Language Learning via Knowledge Transfer from Vision Experts
- Title(参考訳): ToVE:ビジョンエキスパートからの知識伝達による効率的なビジョンランゲージ学習
- Authors: Yuanchen Wu, Junlong Du, Ke Yan, Shouhong Ding, Xiaoqiang Li,
- Abstract要約: 視覚言語(VL)学習は、広範囲な視覚知覚能力を必要とする。
最近の研究は通常、これらの機能を開発するために、巨大なデータセット上の巨大なモデルをトレーニングすることに頼っている。
本稿では,ビジョンエキスパートのハブから知識を伝達する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.446235941754345
- License:
- Abstract: Vision-language (VL) learning requires extensive visual perception capabilities, such as fine-grained object recognition and spatial perception. Recent works typically rely on training huge models on massive datasets to develop these capabilities. As a more efficient alternative, this paper proposes a new framework that Transfers the knowledge from a hub of Vision Experts (ToVE) for efficient VL learning, leveraging pre-trained vision expert models to promote visual perception capability. Specifically, building on a frozen CLIP encoder that provides vision tokens for image-conditioned language generation, ToVE introduces a hub of multiple vision experts and a token-aware gating network that dynamically routes expert knowledge to vision tokens. In the transfer phase, we propose a "residual knowledge transfer" strategy, which not only preserves the generalizability of the vision tokens but also allows detachment of low-contributing experts to improve inference efficiency. Further, we explore to merge these expert knowledge to a single CLIP encoder, creating a knowledge-merged CLIP that produces more informative vision tokens without expert inference during deployment. Experiment results across various VL tasks demonstrate that the proposed ToVE achieves competitive performance with two orders of magnitude fewer training data.
- Abstract(参考訳): 視覚言語学習(VL)は、細粒度物体認識や空間知覚など、幅広い視覚知覚能力を必要とする。
最近の研究は通常、これらの機能を開発するために、巨大なデータセット上の巨大なモデルをトレーニングすることに頼っている。
より効率的な代替手段として,視覚エキスパート(ToVE)のハブから知識を伝達してVL学習を効率化するフレームワークを提案する。
具体的には、画像条件付き言語生成のためのビジョントークンを提供する冷凍CLIPエンコーダ上に構築されているToVEは、複数のビジョンエキスパートのハブと、専門家の知識をビジョントークンに動的にルーティングするトークン対応ゲーティングネットワークを導入する。
移行段階では,視覚トークンの一般化性を保ちつつ,低属性の専門家を分離して推論効率を向上させる「残留知識伝達」戦略を提案する。
さらに、これらの専門家の知識を単一のCLIPエンコーダにマージし、デプロイ中に専門家の推論なしにより情報に富んだ視覚トークンを生成する知識統合CLIPを作成する。
様々なVLタスクに対する実験結果から、提案したToVEは2桁のトレーニングデータで競合性能を達成できることが示された。
関連論文リスト
- Beyond Sight: Towards Cognitive Alignment in LVLM via Enriched Visual Knowledge [24.538839144639653]
LVLM(Large Vision-Language Models)は、学習済みのビジョンと言語コンポーネントを個別に統合する。
これらのモデルはしばしば、視覚エンコーダ(VE)と大言語モデル(LLM)の「認知的不整合」の中核的な問題に遭遇する。
論文 参考訳(メタデータ) (2024-11-25T18:33:14Z) - VLM-KD: Knowledge Distillation from VLM for Long-Tail Visual Recognition [25.927771583678272]
市販の視覚言語モデル(VLM)から知識を抽出する効果的な方法を提案する。
我々は、新しいテキストの監督を生成し、自由形式のテキストを視覚エンコーダに蒸留するフレームワークを開発する。
我々の知る限り、本研究は、市販のVLMによって生成されたテキスト管理を初めて活用し、無作為な視覚エンコーダに適用するものである。
論文 参考訳(メタデータ) (2024-08-29T22:13:29Z) - Unveiling Encoder-Free Vision-Language Models [62.52803514667452]
既存の視覚言語モデル (VLM) は主に視覚的特徴を抽出するために視覚エンコーダに依存しており、視覚言語タスクには大きな言語モデル (LLM) が続く。
エンコーダベースモデルとエンコーダフリーモデルとのギャップを橋渡しし、純粋なVLMに対するシンプルで効果的なトレーニングレシピを示す。
EVEはエンコーダなしの視覚言語モデルで、効率的にトレーニングと転送ができる。
論文 参考訳(メタデータ) (2024-06-17T17:59:44Z) - MoVA: Adapting Mixture of Vision Experts to Multimodal Context [38.8308841469793]
我々は,タスク固有の視覚エキスパートを適応的にルーティングし,粗い機構で融合する,強力で斬新なMLLMであるMoVAを提案する。
粗い段階では、最適な視覚専門家を動的に選択するためのコンテキスト対応の専門家ルーティング戦略を設計する。
粒度の細かい段階では、タスク固有の知識を抽出して融合するために、Mix-of-vision-Expert Adapter (MoV-Adapter) を精巧に実施する。
論文 参考訳(メタデータ) (2024-04-19T17:59:48Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering [53.70661720114377]
マルチモーダル・大型モデル(MLM)は視覚的理解の分野を著しく進歩させ、視覚的質問応答(VQA)の領域で顕著な能力を提供している
しかし、真の課題は知識集約型VQAタスクの領域にある。
1) モデルが視覚的手がかりを理解し、一般的な知識にどのように結びつくかを評価するコモンセンス知識、2) 画像から特定の知識を推論し、提示する際のモデルのスキルをテストする微粒な世界知識。
論文 参考訳(メタデータ) (2023-11-13T18:22:32Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文 参考訳(メタデータ) (2021-01-15T08:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。