Fugu-MT 論文翻訳(概要): Fine-Grained Regional Prompt Tuning for Visual Abductive Reasoning

論文の概要: Fine-Grained Regional Prompt Tuning for Visual Abductive Reasoning

arxiv url: http://arxiv.org/abs/2303.10428v1
Date: Sat, 18 Mar 2023 14:46:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-21 19:29:07.436264
Title: Fine-Grained Regional Prompt Tuning for Visual Abductive Reasoning
Title（参考訳）: 視覚誘発推論のための細粒領域プロンプトチューニング
Authors: Hao Zhang, Basura Fernando
Abstract要約: Visual Abductive Reasoning (VL) は、視覚入力から潜在的テキスト仮説を検索・生成する必要がある新しい視覚言語(VL)トピックである。そこで我々は,「地域視覚的ヒント」と「言語的文脈」を細粒度と粗粒度で別々に符号化する,シンプルで効果的な地域プロンプトチューニングを提案する。シャーロックデータセットの実験では、Dual-Contrastive Lossを用いた完全に微調整されたRGP/RGPが従来のSOTAよりも大幅に優れていた。
参考スコア（独自算出の注目度）: 22.227988692346106
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual Abductive Reasoning (VAR) is an emerging vision-language (VL) topic where the model needs to retrieve/generate a likely textual hypothesis from a visual input (image or part of an image) using backward reasoning based on prior knowledge or commonsense. Unlike in conventional VL retrieval or captioning tasks, where entities of texts appear in the image, in abductive inferences, the relevant facts about inferences are not directly visible in the input images. Besides, the inferences are causally relevant to regional visual hints and vary with the latter. Existing works highlight visual parts from a global background with specific prompt tuning techniques (e.g., colorful prompt tuning) on top of foundation models, like CLIP. However, these methods uniformly patchify "regional hints" and "global context" at the same granularity level and may lose fine-grained visual details significant for abductive reasoning. To tackle this, we propose a simple yet effective Regional Prompt Tuning, which encodes "regional visual hints" and "global contexts" separately at fine and coarse-grained levels. Specifically, our model explicitly upsamples, then patchify local hints to get fine-grained regional prompts. These prompts are concatenated with coarse-grained contextual tokens from whole images. We also equip our model with a new Dual-Contrastive Loss to regress the visual feature simultaneously toward features of factual description (a.k.a. clue text) and plausible hypothesis (abductive inference text) during training. Extensive experiments on the Sherlock dataset demonstrate that our fully fine-tuned RGP/RGPs with Dual-Contrastive Loss significantly outperforms previous SOTAs, achieving the 1 rank on abductive reasoning leaderboards among all submissions, under all metrics (e.g., P@1$_{i->t}$: RGPs 38.78 vs CPT-CLIP 33.44, higher=better). We would open-source our codes for further research.
Abstract（参考訳）: visual abductive reasoning (var) は新たな視覚言語(vl)のトピックであり、事前知識や常識に基づいた後方推論を用いて、モデルが視覚入力(画像または画像の一部)からおそらくテキスト仮説を検索/生成する必要がある。従来のVL検索やキャプションタスクとは異なり、帰納的推論においてテキストの実体が画像に現れる場合、推論に関する関連する事実は入力画像に直接表示されない。さらに、推論は地域的な視覚的ヒントと因果関係があり、後者と異なる。既存の作業は、CLIPのような基礎モデルの上に特定のプロンプトチューニング技術(例えば、カラフルなプロンプトチューニング)で、グローバル背景からの視覚的な部分を強調している。しかし、これらの手法は同じ粒度レベルで「地域ヒント」と「グローバルコンテキスト」を均一にパッチし、帰納的推論において重要な細かい視覚的詳細を失う可能性がある。そこで本研究では,細粒度と粗粒度を分離して"地域視覚ヒント"と"グローバルコンテキスト"を符号化する,単純かつ効果的な局所的プロンプトチューニングを提案する。具体的には、我々のモデルは明示的にアップサンプルし、その後、局所的なヒントをパッチして、きめ細かい地域的なプロンプトを得る。これらのプロンプトは、画像全体から粗い粒度のコンテキストトークンと連結される。また,このモデルに新たな双対性損失を付与することで,視覚特徴を学習中の事実記述(すなわち手掛かり文)と説得性仮説(抽象推論文)の特徴に同時に回帰させる。シャーロックデータセットの大規模な実験により、我々の完全微調整されたRGP/RGPとDual-Contrastive Lossは以前のSOTAよりも大幅に優れており、全てのメトリクス(例えば、P@1$_{i->t}$: RGPs 38.78 vs CPT-CLIP 33.44, higher=better)の下で、全ての提案のうち、帰納的推論のリーダーボードで1位を獲得した。さらなる研究のためにコードをオープンソースにします。

関連論文リスト

ReasonCACHE: Teaching LLMs To Reason Without Weight Updates [75.2707292367514]
大規模言語モデル(LLM)は、コンテキストウィンドウをオーバーロードすることなく、重み付けをすることなく、推論を学習できることを示します。本稿では、デモを固定キー値キャッシュに蒸留するReasonCACHEについて紹介する。経験的に、ReasonCACHEは標準のICLよりも優れており、IWLアプローチにマッチするか、超えている。
論文参考訳（メタデータ） (2026-02-02T17:24:23Z)
CAPE: A CLIP-Aware Pointing Ensemble of Complementary Heatmap Cues for Embodied Reference Understanding [55.33317649771575]
身体的参照理解(Embodied Reference Understanding)は、シーンの人物が指し示すジェスチャーと言語の両方を通して参照しているオブジェクトを予測する。本稿では,2重モデルフレームワークを提案し,一方のモデルが頭指先方向から学習し,他方のモデルが手指先方向から学習する。 CLIP機能に基づいたハイブリッドアンサンブルを行うCLIP-Aware Pointing Ensembleモジュールを提案する。
論文参考訳（メタデータ） (2025-07-29T15:00:21Z)
AF-CLIP: Zero-Shot Anomaly Detection via Anomaly-Focused CLIP Adaptation [8.252046294696585]
AF-CLIP(Anomaly-Focused CLIP)を提案する。本稿では,視覚的特徴の異常関連パターンを強調する軽量アダプタを提案する。また,余分なメモリバンクによる数ショットのシナリオにも拡張されている。
論文参考訳（メタデータ） (2025-07-26T13:34:38Z)
Fine-Tuning CLIP's Last Visual Projector: A Few-Shot Cornucopia [45.93202559299953]
本稿では、最適化に「外部」パラメータを追加することなく、CLIP適応のための代替手法を提案する。視覚の最後のプロジェクション行列を微調整するだけで、既存のベースラインと比較して高い性能が得られることが分かりました。おそらく驚くべきことに、このアプローチはProLIPと呼ばれ、11のスクリーンショット分類ベンチマークの最先端よりも同等かそれ以上のパフォーマンスが得られる。
論文参考訳（メタデータ） (2024-10-07T17:59:59Z)
Learning Object-Centric Representation via Reverse Hierarchy Guidance [73.05170419085796]
OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンで個々のオブジェクトを識別できるようにする。 RHGNetは、トレーニングと推論プロセスにおいて、さまざまな方法で機能するトップダウンパスを導入している。我々のモデルは、よく使われる複数のデータセット上でSOTA性能を達成する。
論文参考訳（メタデータ） (2024-05-17T07:48:27Z)
Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文参考訳（メタデータ） (2023-08-30T10:35:36Z)
A Closer Look at the Explainability of Contrastive Language-Image Pre-training [16.10032166963232]
Contrastive Language-image Pre-training (CLIP)は、様々なタスクに対して大きなメリットを示す強力なビジョン言語モデルである。我々は,その信頼性を損なうような説明可能性の問題と,関連するタスクのキャパシティの制限を指摘した。本稿では,CLIP surgery for reliable CAMを提案する。
論文参考訳（メタデータ） (2023-04-12T07:16:55Z)
HOICLIP: Efficient Knowledge Transfer for HOI Detection with Vision-Language Models [30.279621764192843]
人間-物体相互作用(Human-Object Interaction、HOI)は、人-物体のペアを局所化し、その相互作用を認識することを目的としている。対照的な言語-画像事前学習(CLIP)は、HOI検出器に先立って相互作用を提供する大きな可能性を示している。本稿では,CLIPから事前知識を効率的に抽出し,より優れた一般化を実現する新しいHOI検出フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-28T07:54:54Z)
No Token Left Behind: Explainability-Aided Image Classification and Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文参考訳（メタデータ） (2022-04-11T07:16:39Z)
The CLEAR Benchmark: Continual LEArning on Real-World Imagery [77.98377088698984]
連続学習(CL)は、生涯AIにとって重要な課題であると考えられている。本稿では,視覚概念の自然な時間進化を伴う最初の連続画像分類ベンチマークであるCLEARを紹介する。単純な教師なし事前学習のステップで、最先端のCLアルゴリズムがすでに強化されていることが分かりました。
論文参考訳（メタデータ） (2022-01-17T09:09:09Z)
PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。 PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文参考訳（メタデータ） (2021-12-04T19:42:40Z)
CLIP-Adapter: Better Vision-Language Models with Feature Adapters [84.88106370842883]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。 CLIP-Adapterは新たなボトルネックレイヤを採用して、新機能を学び、残留スタイルの機能ブレンディングを実行する。様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2021-10-09T11:39:30Z)
How Much Can CLIP Benefit Vision-and-Language Tasks? [121.46042421728016]
CLIP (Contrastive Language- Image Pre-training) は大量の画像キャプチャーペアに基づいて訓練されており、様々な視覚タスクにおいて強力なゼロショット能力を示している。多様なV&Lタスクの競合的あるいはより良い結果を得るとともに、ビジュアル質問応答、ビジュアルエンタテインメント、V&Lナビゲーションタスクに関する最新の結果を確立する。
論文参考訳（メタデータ） (2021-07-13T20:48:12Z)
Keep CALM and Improve Visual Feature Attribution [42.784665606132]
クラスアクティベーションマッピング(クラスアクティベーションマッピング、CAM)は、複数の視覚タスクのための特徴属性法の基礎となっている。定式化における認識のためのキューの位置を符号化する潜在変数を明示的に組み込むことにより、CAMを改善する。結果のモデルであるクラスアクティベーション潜在マッピング(CALM)は、期待最大化アルゴリズムを用いて訓練される。
論文参考訳（メタデータ） (2021-06-15T03:33:25Z)
Weakly Supervised Attention Pyramid Convolutional Neural Network for Fine-Grained Visual Classification [71.96618723152487]
注意ピラミッド畳み込みニューラルネットワーク(AP-CNN)について紹介する。 AP-CNNは高レベルのセマンティックと低レベルの詳細な特徴表現の両方を学ぶ。追加のバウンディングボックス/パートアノテーションを必要とせずに、エンドツーエンドでトレーニングすることができる。
論文参考訳（メタデータ） (2020-02-09T12:33:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。