Fugu-MT 論文翻訳(概要): Improving Adaptability and Generalizability of Efficient Transfer Learning for Vision-Language Models

論文の概要: Improving Adaptability and Generalizability of Efficient Transfer Learning for Vision-Language Models

arxiv url: http://arxiv.org/abs/2311.15569v1
Date: Mon, 27 Nov 2023 06:37:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 16:50:32.724636
Title: Improving Adaptability and Generalizability of Efficient Transfer Learning for Vision-Language Models
Title（参考訳）: 視覚言語モデルにおける効率的な転送学習の適応性と一般化性の向上
Authors: Yongjin Yang, Jongwoo Ko, Se-Young Yun
Abstract要約: 我々は視覚・言語モデル(VLM)が視覚とテキストのプロンプト、アダプタ、それらの組み合わせを用いてどのように振る舞うかを経験的に分析する。そこで本研究では,クラス分離性に対する視覚的プロンプトとタスク適応のためのテキストアダプタの利用が,適応性と一般化性に不可欠であることが確認された。本稿では,VLMの一般的な知識と,伝達難度に応じてタスク固有の知識を効果的に組み合わせた適応型アンサンブル手法を提案する。
参考スコア（独自算出の注目度）: 31.533917265867466
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language Models (VLMs) like CLIP have demonstrated remarkable applicability across a variety of downstream tasks, including zero-shot image classification. Recently, the use of prompts or adapters for efficient transfer learning has gained significant attention for effectively adapting to downstream tasks. However, the roles of vision and text prompts, as well as adapters in terms of generalization and transfer difficulty, have been overlooked, limiting performance on unseen tasks. In this paper, we empirically analyze how VLMs behave when using vision and text prompts, adapters, and a combination of these components, marking a novel exploration by our study. Our observations find that utilizing vision prompts for class separability and text adapters for task adaptation is crucial for adaptability and generalizability. Moreover, to improve generalization across every domain, we propose an adaptive ensemble method that effectively combines the general knowledge of VLMs with task-specific knowledge according to transfer difficulty. Upon experimenting with extensive benchmarks, our method consistently outperforms all baselines, particularly on unseen tasks, demonstrating the effectiveness of our proposed approach.
Abstract（参考訳）: CLIPのようなVLM(Vision-Language Models)は、ゼロショット画像分類など、さまざまな下流タスクに顕著な適用性を示している。近年,効率的な伝達学習のためのプロンプトやアダプタの利用が,下流タスクに効果的に適応する上で大きな注目を集めている。しかし、視覚とテキストのプロンプトの役割や、一般化と転送の難しさの観点からのアダプタは見過ごされ、目に見えないタスクのパフォーマンスが制限された。本稿では,視覚とテキストのプロンプト,アダプタ,これらの組み合わせを用いて,VLMの動作を実証的に分析し,本研究による新たな探索を行った。その結果,視覚プロンプトをクラス分離性に,テキストアダプタをタスク適応に活用することが適応性と一般化性に不可欠であることが判明した。さらに,各領域の一般化を改善するために,VLMの一般知識とタスク固有の知識を伝達困難に応じて効果的に組み合わせた適応アンサンブル手法を提案する。広範なベンチマーク実験を行った結果,本手法は,提案手法の有効性を実証し,すべてのベースライン,特に未知のタスクを一貫して上回っている。

関連論文リスト

Adapting Vision-Language Models Without Labels: A Comprehensive Survey [74.17944178027015]
VLM(Vision-Language Models)は、幅広いタスクにまたがる顕著な一般化機能を示す。近年,ラベル付きデータに依存しない教師なし適応手法に注目が集まっている。本稿では,未ラベルの視覚データの可用性と性質に基づく分類法を提案し,既存のアプローチを4つの重要なパラダイムに分類する。
論文参考訳（メタデータ） (2025-08-07T16:27:37Z)
Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。 VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文参考訳（メタデータ） (2025-08-06T09:03:10Z)
FAST: Similarity-based Knowledge Transfer for Efficient Policy Learning [57.4737157531239]
Transfer Learningは、タスク間で知識を伝達することで学習を加速する能力を提供する。これは、負の転送、ドメイン適応、ソリッドソースポリシーの選択における非効率といった重要な課題に直面します。本研究では,知識伝達の改善,タスク間のパフォーマンスの促進,計算コストの削減など,TLの課題に挑戦する。
論文参考訳（メタデータ） (2025-07-27T22:21:53Z)
Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.296260279593993]
CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文参考訳（メタデータ） (2025-03-11T21:38:34Z)
Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文参考訳（メタデータ） (2025-03-06T03:06:22Z)
Efficient Policy Adaptation with Contrastive Prompt Ensemble for Embodied Agents [6.402396836189286]
本稿では,強化学習のための新しいコントラスト・プロンプト・アンサンブル(ConPE)フレームワークを提案する。視覚言語モデル上に複数の視覚的プロンプトを持つガイド付きアテンションに基づくアンサンブルアプローチを考案し、ロバストな状態表現を構築する。実験では,いくつかの具体的エージェントタスクに対して,ConPEが他の最先端アルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-16T06:53:00Z)
Active Prompt Learning with Vision-Language Model Priors [9.173468790066956]
視覚言語モデルの事前学習画像とテキストエンコーダを利用するクラス誘導クラスタリングを提案する。適応型クラスワイドしきい値に基づく予算削減型選択クエリを提案する。
論文参考訳（メタデータ） (2024-11-23T02:34:33Z)
Visual Cue Enhancement and Dual Low-Rank Adaptation for Efficient Visual Instruction Fine-Tuning [102.18178065928426]
VCE(Vision Cue Enhancement)とDual-LoRA(Dual-LoRA)の2つの新しいアプローチによる効率的な微調整フレームワークを提案する。 VCEは、マルチレベルビジュアルキューを統合することで、視覚プロジェクタを強化し、きめ細かい視覚的特徴をキャプチャするモデルの能力を向上させる。 Dual-LoRAは、命令チューニングのための2つの低ランク構造を導入し、スキルとタスク空間に学習を分離し、様々なタスクにまたがって正確な制御と効率的な適応を可能にする。
論文参考訳（メタデータ） (2024-11-19T11:03:09Z)
Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners [8.707819647492467]
視覚言語モデル全体(VLM)の精巧な精細化によるタスク固有情報の取得について検討する。これらの問題を緩和するために,識別的視覚テキストタスクを設計するCLIP-CITEというフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-04T15:22:54Z)
Low-Rank Few-Shot Adaptation of Vision-Language Models [13.803180972839213]
視覚言語モデル(VLM)の少数ショット学習においてローランド適応(LoRA)を導入する。驚くべきことに、我々の単純なCLIP-LoRA法は、トレーニング時間を短縮しつつ、大幅に改善されている。本研究の結果は,アクセシブルラーニングとアダプタベースの研究の可能性を否定するものではない。
論文参考訳（メタデータ） (2024-05-28T19:16:59Z)
Enhancing Vision-Language Few-Shot Adaptation with Negative Learning [11.545127156146368]
我々は,タスク固有の知識をより効率的に活用するための,シンプルで効果的な否定的学習手法SimNLを提案する。そこで本研究では,雑音を緩和するために,プラグアンドプレイによる数発のインスタンス再重み付け手法を提案する。提案したSimNLは,少数ショット学習とドメイン一般化の両タスクにおいて,既存の最先端手法よりも優れていることを確認した。
論文参考訳（メタデータ） (2024-03-19T17:59:39Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
APLe: Token-Wise Adaptive for Multi-Modal Prompt Learning [15.844451999840588]
token-wise Adaptive for Multi-modal Prompt Learning (APLe) を提案する。 APLeは、V-Lモデルを採用する上で絶対的に有利な、プロンプト長の実験において、堅牢性と好ましい性能を示す。
論文参考訳（メタデータ） (2024-01-12T04:54:01Z)
OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文参考訳（メタデータ） (2023-05-24T10:08:04Z)
Meta-Learning with Fewer Tasks through Task Interpolation [67.03769747726666]
現在のメタ学習アルゴリズムは多数のメタトレーニングタスクを必要としており、実際のシナリオではアクセスできない可能性がある。タスクグラデーションを用いたメタラーニング(MLTI)により,タスクのペアをランダムにサンプリングし,対応する特徴やラベルを補間することにより,タスクを効果的に生成する。実証的な実験では,提案する汎用MLTIフレームワークが代表的なメタ学習アルゴリズムと互換性があり,他の最先端戦略を一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2021-06-04T20:15:34Z)
Learning Invariant Representations across Domains and Tasks [81.30046935430791]
本稿では,この教師なしタスク転送問題を解決するための新しいタスク適応ネットワーク(tan)を提案する。ドメイン・アドバーサル・トレーニングによる伝達可能な機能を学習することに加えて、学習から学習への戦略を用いてタスクの意味を適応させる新しいタスク・セマンティクス・アダプタを提案する。 TANは最近の強いベースラインに比べてリコールとF1スコアを5.0%と7.8%大きく向上させた。
論文参考訳（メタデータ） (2021-03-03T11:18:43Z)
Uniform Priors for Data-Efficient Transfer [65.086680950871]
もっとも移動可能な特徴は埋め込み空間において高い均一性を有することを示す。我々は、未確認のタスクやデータへの適応を容易にする能力の正規化を評価する。
論文参考訳（メタデータ） (2020-06-30T04:39:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。