論文の概要: RCA: Region Conditioned Adaptation for Visual Abductive Reasoning
- arxiv url: http://arxiv.org/abs/2303.10428v5
- Date: Wed, 7 Aug 2024 13:44:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 18:42:56.194551
- Title: RCA: Region Conditioned Adaptation for Visual Abductive Reasoning
- Title(参考訳): RCA: 視覚的帰納的推論のための条件付き適応
- Authors: Hao Zhang, Yeo Keat Ee, Basura Fernando,
- Abstract要約: 領域条件適応は、視覚的帰納的推論のためのパラメータ効率の良い微調整法である。
局所的なヒント」と「グローバルな文脈」をCLIPモデルの視覚的プロンプトに細粒度と粗粒度を別々にエンコードする。
我々は、視覚的特徴をリテラル記述と妥当な説明の特徴へ同時に回帰させるために、コントラスト損失を修正した新しいモデルを訓練する。
- 参考スコア(独自算出の注目度): 16.777952099967113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual abductive reasoning aims to make likely explanations for visual observations. We propose a simple yet effective Region Conditioned Adaptation, a hybrid parameter-efficient fine-tuning method that equips the frozen CLIP with the ability to infer explanations from local visual cues. We encode ``local hints'' and ``global contexts'' into visual prompts of the CLIP model separately at fine and coarse-grained levels. Adapters are used for fine-tuning CLIP models for downstream tasks and we design a new attention adapter, that directly steers the focus of the attention map with trainable query and key projections of a frozen CLIP model. Finally, we train our new model with a modified contrastive loss to regress the visual feature simultaneously toward features of literal description and plausible explanations. The loss enables CLIP to maintain both perception and reasoning abilities. Experiments on the Sherlock visual abductive reasoning benchmark show that the RCA significantly outstands previous SOTAs, ranking the \nth{1} on the leaderboards (e.g., Human Acc: RCA 31.74 \textit{vs} CPT-CLIP 29.58, higher =better). We also validate the RCA is generalizable to local perception benchmarks like RefCOCO. We open-source our project at \textit{\color{magenta}{\url{https://github.com/LUNAProject22/RPA}}}.
- Abstract(参考訳): 視覚誘発推論は、視覚的な観察のためにおそらく説明することを目的としている。
凍結したCLIPに局所的な視覚的手がかりから説明を推論する機能を持たせるハイブリッドパラメータ効率の良い微調整手法である、単純で効果的な領域条件適応を提案する。
私たちは ``local hints'' と ``global contexts'' を CLIP モデルの視覚的プロンプトに細粒度と粗粒度を別々にエンコードする。
アダプタは下流タスクのための微調整CLIPモデルに使用され、トレーニング可能なクエリと凍結したCLIPモデルのキープロジェクションでアテンションマップの焦点を直接制御する新しいアテンションアダプタを設計する。
最後に,視覚的特徴をリテラル記述と可視的説明の特徴に反映させるために,コントラスト損失を修正した新しいモデルを訓練する。
この損失により、CLIPは知覚と推論能力の両方を維持することができる。
シャーロックの視覚誘導推論ベンチマークの実験では、RCAは以前のSOTAをはるかに上回り、リーダーボード(例えば、人間Acc: RCA 31.74 \textit{vs} CPT-CLIP 29.58, higher =better)にランク付けしている。
我々はまた、RCAがRefCOCOのような局所的な知覚ベンチマークに一般化可能であることを検証する。
私たちはこのプロジェクトを、textit{\color{magenta}{\url{https://github.com/LUNAProject22/RPA}}}でオープンソース化しました。
関連論文リスト
- Fine-Tuning CLIP's Last Visual Projector: A Few-Shot Cornucopia [45.93202559299953]
本稿では、最適化に「外部」パラメータを追加することなく、CLIP適応のための代替手法を提案する。
視覚の最後のプロジェクション行列を微調整するだけで、既存のベースラインと比較して高い性能が得られることが分かりました。
おそらく驚くべきことに、このアプローチはProLIPと呼ばれ、11のスクリーンショット分類ベンチマークの最先端よりも同等かそれ以上のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2024-10-07T17:59:59Z) - Learning Object-Centric Representation via Reverse Hierarchy Guidance [73.05170419085796]
OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンで個々のオブジェクトを識別できるようにする。
RHGNetは、トレーニングと推論プロセスにおいて、さまざまな方法で機能するトップダウンパスを導入している。
我々のモデルは、よく使われる複数のデータセット上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2024-05-17T07:48:27Z) - Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot
Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。
本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-30T10:35:36Z) - A Closer Look at the Explainability of Contrastive Language-Image Pre-training [16.10032166963232]
Contrastive Language-image Pre-training (CLIP)は、様々なタスクに対して大きなメリットを示す強力なビジョン言語モデルである。
我々は,その信頼性を損なうような説明可能性の問題と,関連するタスクのキャパシティの制限を指摘した。
本稿では,CLIP surgery for reliable CAMを提案する。
論文 参考訳(メタデータ) (2023-04-12T07:16:55Z) - HOICLIP: Efficient Knowledge Transfer for HOI Detection with
Vision-Language Models [30.279621764192843]
人間-物体相互作用(Human-Object Interaction、HOI)は、人-物体のペアを局所化し、その相互作用を認識することを目的としている。
対照的な言語-画像事前学習(CLIP)は、HOI検出器に先立って相互作用を提供する大きな可能性を示している。
本稿では,CLIPから事前知識を効率的に抽出し,より優れた一般化を実現する新しいHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T07:54:54Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - The CLEAR Benchmark: Continual LEArning on Real-World Imagery [77.98377088698984]
連続学習(CL)は、生涯AIにとって重要な課題であると考えられている。
本稿では,視覚概念の自然な時間進化を伴う最初の連続画像分類ベンチマークであるCLEARを紹介する。
単純な教師なし事前学習のステップで、最先端のCLアルゴリズムがすでに強化されていることが分かりました。
論文 参考訳(メタデータ) (2022-01-17T09:09:09Z) - PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。
PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文 参考訳(メタデータ) (2021-12-04T19:42:40Z) - Keep CALM and Improve Visual Feature Attribution [42.784665606132]
クラスアクティベーションマッピング(クラスアクティベーションマッピング、CAM)は、複数の視覚タスクのための特徴属性法の基礎となっている。
定式化における認識のためのキューの位置を符号化する潜在変数を明示的に組み込むことにより、CAMを改善する。
結果のモデルであるクラスアクティベーション潜在マッピング(CALM)は、期待最大化アルゴリズムを用いて訓練される。
論文 参考訳(メタデータ) (2021-06-15T03:33:25Z) - Weakly Supervised Attention Pyramid Convolutional Neural Network for
Fine-Grained Visual Classification [71.96618723152487]
注意ピラミッド畳み込みニューラルネットワーク(AP-CNN)について紹介する。
AP-CNNは高レベルのセマンティックと低レベルの詳細な特徴表現の両方を学ぶ。
追加のバウンディングボックス/パートアノテーションを必要とせずに、エンドツーエンドでトレーニングすることができる。
論文 参考訳(メタデータ) (2020-02-09T12:33:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。