Fugu-MT 論文翻訳(概要): CoPL: Contextual Prompt Learning for Vision-Language Understanding

論文の概要: CoPL: Contextual Prompt Learning for Vision-Language Understanding

arxiv url: http://arxiv.org/abs/2307.00910v2
Date: Tue, 12 Dec 2023 05:34:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 20:21:32.777779
Title: CoPL: Contextual Prompt Learning for Vision-Language Understanding
Title（参考訳）: CoPL:視覚言語理解のためのコンテキストプロンプト学習
Authors: Koustava Goswami, Srikrishna Karanam, Prateksha Udhayanan, K J Joseph and Balaji Vasan Srinivasan
Abstract要約: 画像の局所的な特徴にプロンプトを調整できるコンテキスト型プロンプト学習(CoPL)フレームワークを提案する。これまでの研究における重要なイノベーションは、素早い学習プロセスの一部としてローカルな画像機能を使うこと、そしてさらに重要なのは、そのタスクに適したローカルな機能に基づいてこれらのプロンプトを重み付けすることである。本手法は, 工法の現状と比較して, 性能を著しく向上させる。
参考スコア（独自算出の注目度）: 21.709017504227823
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in multimodal learning has resulted in powerful vision-language models, whose representations are generalizable across a variety of downstream tasks. Recently, their generalization ability has been further extended by incorporating trainable prompts, borrowed from the natural language processing literature. While such prompt learning techniques have shown impressive results, we identify that these prompts are trained based on global image features which limits itself in two aspects: First, by using global features, these prompts could be focusing less on the discriminative foreground image, resulting in poor generalization to various out-of-distribution test cases. Second, existing work weights all prompts equally whereas intuitively, prompts should be reweighed according to the semantics of the image. We address these as part of our proposed Contextual Prompt Learning (CoPL) framework, capable of aligning the prompts to the localized features of the image. Our key innovations over earlier works include using local image features as part of the prompt learning process, and more crucially, learning to weight these prompts based on local features that are appropriate for the task at hand. This gives us dynamic prompts that are both aligned to local image features as well as aware of local contextual relationships. Our extensive set of experiments on a variety of standard and few-shot datasets show that our method produces substantially improved performance when compared to the current state of the art methods. We also demonstrate both few-shot and out-of-distribution performance to establish the utility of learning dynamic prompts that are aligned to local image features.
Abstract（参考訳）: マルチモーダル学習の最近の進歩は、様々な下流タスクで表現が一般化できる強力な視覚言語モデルを生み出している。近年,自然言語処理の文献から借用した訓練可能なプロンプトを取り入れた一般化能力がさらに拡張されている。このような迅速な学習技術は印象的な結果を示しているが、これらのプロンプトは2つの側面に制限されたグローバルイメージの特徴に基づいてトレーニングされていることを認識している。第二に、既存の作業はすべてのプロンプトを等しく直感的に重くし、イメージのセマンティクスに応じてプロンプトをリウィートすべきである。提案するContextual Prompt Learning(CoPL)フレームワークの一部として,画像の局所的な特徴にプロンプトを合わせることができる。これまでの作業で重要なイノベーションは、プロンプト学習プロセスの一部としてローカルイメージ機能を使用すること、さらに重要なのは、目の前のタスクに適したローカル機能に基づいてこれらのプロンプトを重み付けする学習です。これにより、ローカルな画像特徴に一致した動的プロンプトと、ローカルなコンテキスト関係を認識することができます。各種標準データセットおよび少数ショットデータセットに対する広範囲な実験結果から,本手法は,現在の技術手法と比較して,大幅な性能向上を図っている。また,局所的な画像特徴に適応した動的プロンプトの学習の有用性を確立するために,散発的および散発的性能の両方を実証する。

関連論文リスト

CILP-FGDI: Exploiting Vision-Language Model for Generalizable Person Re-Identification [42.429118831928214]
CLIP(Contrastive Language- Image Pretraining)は,大規模画像テキストペア上で事前訓練された視覚言語モデルである。 CLIPのタスクへの適応は、識別能力を高めるためによりきめ細かい機能を学ぶことと、モデルの一般化能力を改善するためによりドメイン不変の機能を学ぶ、という2つの大きな課題を示す。
論文参考訳（メタデータ） (2025-01-27T14:08:25Z)
FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文参考訳（メタデータ） (2024-12-04T18:56:04Z)
Instructing Prompt-to-Prompt Generation for Zero-Shot Learning [116.33775552866476]
伝達可能な知識発見のための指導的視覚的プロンプトを蒸留するためのtextbfPrompt-to-textbfPrompt 生成手法 (textbfP2P) を提案する。 P2Pのコアとなるのは、アクセシブル条件付き視覚特徴と、モーダル共有セマンティック概念に関するテキスト命令からセマンティック関連命令をマイニングすることである。
論文参考訳（メタデータ） (2024-06-05T07:59:48Z)
ProGEO: Generating Prompts through Image-Text Contrastive Learning for Visual Geo-localization [0.0]
そこで本稿では,視覚性能を向上させるための2段階学習手法を提案する。提案手法の有効性を複数の大規模視覚的ジオローカライゼーションデータセットで検証する。
論文参考訳（メタデータ） (2024-06-04T02:28:51Z)
mTREE: Multi-Level Text-Guided Representation End-to-End Learning for Whole Slide Image Analysis [16.472295458683696]
マルチモーダル学習は視覚とテキストのデータを統合するが、その病理像やテキスト解析への応用は依然として困難である。マルチレベルテキストガイド表現のエンド・ツー・エンド・ラーニング(mTREE)を導入する。この新しいテキスト誘導アプローチは、テキスト病理情報からの情報を活用することで、WSI(Whole Slide Images)を効果的にキャプチャする。
論文参考訳（メタデータ） (2024-05-28T04:47:44Z)
Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文参考訳（メタデータ） (2024-05-09T15:39:54Z)
SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for Multimodal Alignment [11.556516260190737]
言語と視覚のマルチモーダルアライメントは、現在の視覚言語モデル研究の基本的なトピックである。本稿では,Contrastive Language-Image Pretraining (CLIP) と Image Caption (IC) を統合するためのContrastive Captioners (CoCa) を提案する。
論文参考訳（メタデータ） (2024-01-04T08:42:36Z)
DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文参考訳（メタデータ） (2023-08-19T15:48:38Z)
ECO: Ensembling Context Optimization for Vision-Language Models [22.32996522125523]
学習は多様であり、おそらくより短い文脈でかなり改善され、一貫して結果が得られます。推論時に余分なコストを伴わずに、より優れたショット機能について報告する。
論文参考訳（メタデータ） (2023-07-26T09:31:06Z)
Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文参考訳（メタデータ） (2023-03-30T06:02:40Z)
Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文参考訳（メタデータ） (2023-01-09T13:54:11Z)
MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文参考訳（メタデータ） (2022-10-06T17:59:56Z)
Leveraging Visual Knowledge in Language Tasks: An Empirical Study on Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文参考訳（メタデータ） (2022-03-14T22:02:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。