論文の概要: Cross-Domain Few-Shot Learning via Multi-View Collaborative Optimization with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.12861v1
- Date: Mon, 18 Aug 2025 12:00:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.277864
- Title: Cross-Domain Few-Shot Learning via Multi-View Collaborative Optimization with Vision-Language Models
- Title(参考訳): 視覚言語モデルを用いた多視点協調最適化によるクロスドメインFew-Shot学習
- Authors: Dexia Chen, Wentao Zhang, Qianjie Zhu, Ping Hu, Weibing Li, Tong Zhang, Ruixuan Wang,
- Abstract要約: 自然画像やCLIPなどの言語データに基づいて事前訓練された視覚言語モデル(VLM)は、数ショットの画像認識タスクにおいて大きな可能性を秘めている。
本稿では,VLM のための新しい微調整手法である Consistency-guided Multi-view Collaborative Optimization (CoMuCo) を提案する。
- 参考スコア(独自算出の注目度): 37.63573703440172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) pre-trained on natural image and language data, such as CLIP, have exhibited significant potential in few-shot image recognition tasks, leading to development of various efficient transfer learning methods. These methods exploit inherent pre-learned knowledge in VLMs and have achieved strong performance on standard image datasets. However, their effectiveness is often limited when confronted with cross-domain tasks where imaging domains differ from natural images. To address this limitation, we propose Consistency-guided Multi-view Collaborative Optimization (CoMuCo), a novel fine-tuning strategy for VLMs. This strategy employs two functionally complementary expert modules to extract multi-view features, while incorporating prior knowledge-based consistency constraints and information geometry-based consensus mechanisms to enhance the robustness of feature learning. Additionally, a new cross-domain few-shot benchmark is established to help comprehensively evaluate methods on imaging domains distinct from natural images. Extensive empirical evaluations on both existing and newly proposed benchmarks suggest CoMuCo consistently outperforms current methods in few-shot tasks. The code and benchmark will be released.
- Abstract(参考訳): 自然画像やCLIPなどの言語データに基づいて事前訓練された視覚言語モデル(VLM)は、数ショット画像認識タスクにおいて大きな可能性を示し、様々な効率的な移動学習手法の開発に繋がった。
これらの手法は、VLMの学習前の知識を生かし、標準画像データセット上で強力なパフォーマンスを実現している。
しかし、画像領域と自然画像が異なる領域横断タスクに直面する場合、その効果は制限されることが多い。
この制限に対処するために,VLM のための新しい微調整戦略である Consistency-guided Multi-view Collaborative Optimization (CoMuCo) を提案する。
この戦略は、2つの機能的補完的専門家モジュールを用いて多視点特徴を抽出し、事前知識に基づく一貫性制約と情報幾何学に基づくコンセンサス機構を取り入れて特徴学習の堅牢性を高める。
さらに、自然画像とは異なる領域を画像化する手法を包括的に評価するために、新しいクロスドメイン・ショット・ベンチマークが確立されている。
既存のベンチマークと、新しく提案されたベンチマークの両方に対する大規模な経験的評価は、CoMuCoが現在のメソッドを数発のタスクで一貫して上回っていることを示唆している。
コードとベンチマークがリリースされる。
関連論文リスト
- DCSCR: A Class-Specific Collaborative Representation based Network for Image Set Classification [14.11016012242278]
本稿では,Deep Class-specific Collaborative Representation (DCSCR) ネットワークと呼ばれる,数発のICCアプローチを提案する。
DCSCRは、完全な畳み込み機能抽出モジュール、グローバル機能学習モジュール、クラス固有の協調表現に基づくメートル法学習モジュールから構成される。
提案手法の有効性を実証するために、よく知られた数発のICCデータセットの実験を行った。
論文 参考訳(メタデータ) (2025-08-18T09:09:55Z) - PeRL: Permutation-Enhanced Reinforcement Learning for Interleaved Vision-Language Reasoning [50.21619363035618]
本稿では,マルチモーダルタスクのインターリーブに適した汎用強化学習手法PeRLを提案する。
空間的および位置的多様性を探索するために、様々な位置関係をシミュレートするために、画像列の置換を導入する。
実験の結果,PeRLのトレーニングモデルは,VLMベースラインを大きなマージンで,R1関連およびインターリーブしたVLMベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T18:25:56Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Domain Generalization for Mammographic Image Analysis with Contrastive
Learning [62.25104935889111]
効果的なディープラーニングモデルのトレーニングには、さまざまなスタイルと品質を備えた大規模なデータが必要である。
より優れたスタイルの一般化能力を備えた深層学習モデルを実現するために,新しいコントラスト学習法が開発された。
提案手法は,様々なベンダスタイルドメインのマンモグラムや,いくつかのパブリックデータセットを用いて,広範囲かつ厳密に評価されている。
論文 参考訳(メタデータ) (2023-04-20T11:40:21Z) - Multimodal Contrastive Training for Visual Representation Learning [45.94662252627284]
マルチモーダルデータを取り入れた視覚表現の学習手法を開発した。
本手法は,各モダリティおよびセマンティクス情報内の本質的なデータ特性をクロスモーダル相関から同時に利用する。
統合フレームワークにマルチモーダルトレーニングを組み込むことで,より強力で汎用的な視覚的特徴を学習することができる。
論文 参考訳(メタデータ) (2021-04-26T19:23:36Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。