論文の概要: Connecting Giants: Synergistic Knowledge Transfer of Large Multimodal Models for Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2510.11115v1
- Date: Mon, 13 Oct 2025 08:06:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.256123
- Title: Connecting Giants: Synergistic Knowledge Transfer of Large Multimodal Models for Few-Shot Learning
- Title(参考訳): 連結ジャイアンツ:Few-Shot学習のための大規模マルチモーダルモデルの相乗的知識伝達
- Authors: Hao Tang, Shengfeng He, Jing Qin,
- Abstract要約: 少数ショット学習は、限られたトレーニングサンプルで新しいクラスを分類するという課題に対処する。
本稿では,大規模マルチモーダルモデルから多様かつ相補的な知識を効果的に伝達する新しいフレームワーク,Synergistic Knowledge Transferを提案する。
単純な数ショットのビジョンエンコーダと組み合わせても、SynTransは現在の最先端手法よりも大幅に優れていることを示す。
- 参考スコア(独自算出の注目度): 61.73934102302588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot learning (FSL) addresses the challenge of classifying novel classes with limited training samples. While some methods leverage semantic knowledge from smaller-scale models to mitigate data scarcity, these approaches often introduce noise and bias due to the data's inherent simplicity. In this paper, we propose a novel framework, Synergistic Knowledge Transfer (SynTrans), which effectively transfers diverse and complementary knowledge from large multimodal models to empower the off-the-shelf few-shot learner. Specifically, SynTrans employs CLIP as a robust teacher and uses a few-shot vision encoder as a weak student, distilling semantic-aligned visual knowledge via an unsupervised proxy task. Subsequently, a training-free synergistic knowledge mining module facilitates collaboration among large multimodal models to extract high-quality semantic knowledge. Building upon this, a visual-semantic bridging module enables bi-directional knowledge transfer between visual and semantic spaces, transforming explicit visual and implicit semantic knowledge into category-specific classifier weights. Finally, SynTrans introduces a visual weight generator and a semantic weight reconstructor to adaptively construct optimal multimodal FSL classifiers. Experimental results on four FSL datasets demonstrate that SynTrans, even when paired with a simple few-shot vision encoder, significantly outperforms current state-of-the-art methods.
- Abstract(参考訳): FSL(Few-shot Learning)は、限られたトレーニングサンプルで新しいクラスを分類するという課題に対処する。
一部の方法は、小さなモデルのセマンティック知識を活用してデータの不足を軽減するが、これらのアプローチは、データ固有の単純さのために、しばしばノイズとバイアスをもたらす。
本稿では,大規模マルチモーダルモデルから多種多様な相補的知識を効果的に伝達し,既成数発の学習者を支援する新しいフレームワーク,SynTransを提案する。
具体的には、SynTransはCLIPを堅牢な教師として採用し、数ショットの視覚エンコーダを弱い学生として使用し、教師なしのプロキシタスクを通じて意味的に整合した視覚的知識を蒸留する。
その後、トレーニング不要な相乗的知識マイニングモジュールは、大規模なマルチモーダルモデル間の協調を促進し、高品質なセマンティック知識を抽出する。
これに基づいて、視覚意味ブリッジモジュールは、視覚空間と意味空間の間の双方向の知識伝達を可能にし、明示的な視覚的および暗黙的な意味的知識をカテゴリ固有の分類器重みに変換する。
最後に、SynTransは最適なマルチモーダルFSL分類器を適応的に構築する視覚的重み生成器と意味的重み再構成器を導入する。
4つのFSLデータセットの実験結果から、単純な数ショットのビジョンエンコーダと組み合わせても、SynTransは現在の最先端の手法よりも大幅に優れていることが示された。
関連論文リスト
- SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Simple Semantic-Aided Few-Shot Learning [2.8686437689115354]
限られた量のデータ、すなわちFew-Shot Learningから学ぶことは、コンピュータビジョンの課題として際立っている。
セマンティック進化(Semantic Evolution)と呼ばれる,高品質なセマンティックスを生成する自動手法を設計する。
セマンティックアライメントネットワーク(Semantic Alignment Network)と呼ばれる単純な2層ネットワークを用いて,セマンティックや視覚的特徴を堅牢なクラスプロトタイプに変換する。
論文 参考訳(メタデータ) (2023-11-30T15:57:34Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Generalized Zero-Shot Learning using Multimodal Variational Auto-Encoder
with Semantic Concepts [0.9054540533394924]
近年の手法では,意味空間と画像空間の相互マッピングの学習が試みられている。
画像特徴と意味空間の共有潜在空間を学習できるマルチモーダル変分自動エンコーダ(M-VAE)を提案する。
提案手法は, ゼロショット学習における最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-26T20:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。