論文の概要: Fine-Grained Regional Prompt Tuning for Visual Abductive Reasoning
- arxiv url: http://arxiv.org/abs/2303.10428v1
- Date: Sat, 18 Mar 2023 14:46:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 19:29:07.436264
- Title: Fine-Grained Regional Prompt Tuning for Visual Abductive Reasoning
- Title(参考訳): 視覚誘発推論のための細粒領域プロンプトチューニング
- Authors: Hao Zhang, Basura Fernando
- Abstract要約: Visual Abductive Reasoning (VL) は、視覚入力から潜在的テキスト仮説を検索・生成する必要がある新しい視覚言語(VL)トピックである。
そこで我々は,「地域視覚的ヒント」と「言語的文脈」を細粒度と粗粒度で別々に符号化する,シンプルで効果的な地域プロンプトチューニングを提案する。
シャーロックデータセットの実験では、Dual-Contrastive Lossを用いた完全に微調整されたRGP/RGPが従来のSOTAよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 22.227988692346106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Abductive Reasoning (VAR) is an emerging vision-language (VL) topic
where the model needs to retrieve/generate a likely textual hypothesis from a
visual input (image or part of an image) using backward reasoning based on
prior knowledge or commonsense. Unlike in conventional VL retrieval or
captioning tasks, where entities of texts appear in the image, in abductive
inferences, the relevant facts about inferences are not directly visible in the
input images. Besides, the inferences are causally relevant to regional visual
hints and vary with the latter. Existing works highlight visual parts from a
global background with specific prompt tuning techniques (e.g., colorful prompt
tuning) on top of foundation models, like CLIP. However, these methods
uniformly patchify "regional hints" and "global context" at the same
granularity level and may lose fine-grained visual details significant for
abductive reasoning.
To tackle this, we propose a simple yet effective Regional Prompt Tuning,
which encodes "regional visual hints" and "global contexts" separately at fine
and coarse-grained levels. Specifically, our model explicitly upsamples, then
patchify local hints to get fine-grained regional prompts. These prompts are
concatenated with coarse-grained contextual tokens from whole images. We also
equip our model with a new Dual-Contrastive Loss to regress the visual feature
simultaneously toward features of factual description (a.k.a. clue text) and
plausible hypothesis (abductive inference text) during training. Extensive
experiments on the Sherlock dataset demonstrate that our fully fine-tuned
RGP/RGPs with Dual-Contrastive Loss significantly outperforms previous SOTAs,
achieving the 1 rank on abductive reasoning leaderboards among all submissions,
under all metrics (e.g., P@1$_{i->t}$: RGPs 38.78 vs CPT-CLIP 33.44,
higher=better). We would open-source our codes for further research.
- Abstract(参考訳): visual abductive reasoning (var) は新たな視覚言語(vl)のトピックであり、事前知識や常識に基づいた後方推論を用いて、モデルが視覚入力(画像または画像の一部)からおそらくテキスト仮説を検索/生成する必要がある。
従来のVL検索やキャプションタスクとは異なり、帰納的推論においてテキストの実体が画像に現れる場合、推論に関する関連する事実は入力画像に直接表示されない。
さらに、推論は地域的な視覚的ヒントと因果関係があり、後者と異なる。
既存の作業は、CLIPのような基礎モデルの上に特定のプロンプトチューニング技術(例えば、カラフルなプロンプトチューニング)で、グローバル背景からの視覚的な部分を強調している。
しかし、これらの手法は同じ粒度レベルで「地域ヒント」と「グローバルコンテキスト」を均一にパッチし、帰納的推論において重要な細かい視覚的詳細を失う可能性がある。
そこで本研究では,細粒度と粗粒度を分離して"地域視覚ヒント"と"グローバルコンテキスト"を符号化する,単純かつ効果的な局所的プロンプトチューニングを提案する。
具体的には、我々のモデルは明示的にアップサンプルし、その後、局所的なヒントをパッチして、きめ細かい地域的なプロンプトを得る。
これらのプロンプトは、画像全体から粗い粒度のコンテキストトークンと連結される。
また,このモデルに新たな双対性損失を付与することで,視覚特徴を学習中の事実記述(すなわち手掛かり文)と説得性仮説(抽象推論文)の特徴に同時に回帰させる。
シャーロックデータセットの大規模な実験により、我々の完全微調整されたRGP/RGPとDual-Contrastive Lossは以前のSOTAよりも大幅に優れており、全てのメトリクス(例えば、P@1$_{i->t}$: RGPs 38.78 vs CPT-CLIP 33.44, higher=better)の下で、全ての提案のうち、帰納的推論のリーダーボードで1位を獲得した。
さらなる研究のためにコードをオープンソースにします。
関連論文リスト
- Towards Seamless Adaptation of Pre-trained Models for Visual Place
Recognition [76.66784893699054]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - Interpretable Visual Question Answering via Reasoning Supervision [4.76359068115052]
トランスフォーマーベースのアーキテクチャは、最近Visual Question Answering (VQA)タスクで顕著なパフォーマンスを示している。
本稿では,視覚的質問応答のための新しいアーキテクチャを提案する。
提案手法がモデルの視覚知覚能力を向上し,性能向上につながることを定量的かつ定性的に示す。
論文 参考訳(メタデータ) (2023-09-07T14:12:31Z) - Linguistic More: Taking a Further Step toward Efficient and Accurate
Scene Text Recognition [92.6211155264297]
Scene Text Recognition (STR) タスクの単純さと効率性から,視覚モデルへの注目が高まっている。
最近の視覚モデルでは,(1)純粋な視覚に基づく問合せによって注意のドリフトが発生し,認識不良が生じ,言語的不感なドリフト(LID)問題として要約される。
我々は,正確なテキスト認識のための視覚モデルの言語的能力を検討するために,$textbfL$inguistic $textbfP$erception $textbfV$ision model (LPV)を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:52:47Z) - Progressive Visual Prompt Learning with Contrastive Feature Re-formation [25.91769241929558]
本稿では,異なるレイヤのプロンプト間の相互作用を強化するために,プログレッシブ・ビジュアル・プロンプト(ProVP)構造を提案する。
我々のProVPは、画像の埋め込みを深い層に効果的に伝播させ、インスタンス適応的なプロンプトメソッドと部分的に似た振る舞いをすることができる。
我々の知る限り、我々はV-Lモデルにおける視覚的プロンプトの、下流タスクにおける従来のプロンプトベースの手法よりも優れた性能を示す最初の人物である。
論文 参考訳(メタデータ) (2023-04-17T15:54:10Z) - CAVL: Learning Contrastive and Adaptive Representations of Vision and
Language [10.57079240576682]
視覚的および言語的事前学習は、視覚と言語表現を一緒に学習することを目的としている。
現在の事前訓練されたモデルでは、下流のタスクに転送する際、微調整のために多くの計算資源を必要とする傾向にある。
我々は、視覚と言語、すなわちCAVLのコントラスト表現と適応表現の学習に、シンプルだが効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-10T05:54:03Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model [39.722927180264584]
本稿では、テキストと視覚的プロンプトを同時に学習することで、新しいDual-modality Prompt Tuning(DPT)パラダイムを提案する。
最終的な画像特徴をよりターゲットの視覚概念に集中させるため,クラス認識型ビジュアルプロンプトチューニング方式を提案する。
論文 参考訳(メタデータ) (2022-08-17T15:06:36Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z) - Visually Grounded Compound PCFGs [65.04669567781634]
言語理解のための視覚的基盤の爆発は、最近多くの注目を集めている。
本研究では,視覚的な文法誘導について検討し,未ラベルテキストとその視覚的キャプションから選挙区を学習する。
論文 参考訳(メタデータ) (2020-09-25T19:07:00Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。