論文の概要: Explaining Caption-Image Interactions in CLIP models with Second-Order Attributions
- arxiv url: http://arxiv.org/abs/2408.14153v3
- Date: Thu, 06 Mar 2025 09:00:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 12:14:15.907968
- Title: Explaining Caption-Image Interactions in CLIP models with Second-Order Attributions
- Title(参考訳): 2次属性を持つCLIPモデルにおけるキャプション-イメージ相互作用の解説
- Authors: Lucas Möller, Pascal Tilli, Ngoc Thang Vu, Sebastian Padó,
- Abstract要約: CLIPモデルは、2種類の入力を共有埋め込み空間にマッピングし、それらの類似性を予測します。
しかし、その成功にもかかわらず、これらのモデルがどのように2つの入力を比較するかは理解されていない。
一般的な1次特徴属性法は、デュアルエンコーダに対する限られた洞察しか提供できない。
- 参考スコア(独自算出の注目度): 28.53636082915161
- License:
- Abstract: Dual encoder architectures like CLIP models map two types of inputs into a shared embedding space and predict similarities between them. Despite their success, it is, however, not understood how these models compare their two inputs. Common first-order feature-attribution methods can only provide limited insights into dual-encoders since their predictions depend on feature-interactions rather than on individual features. In this paper, we first derive a second-order method enabling the attribution of predictions by any differentiable dual encoder onto feature-interactions between its inputs. Second, we apply our method to CLIP models and show that they learn fine-grained correspondences between parts of captions and regions in images. They match objects across input modes also account for mismatches. This visual-linguistic grounding ability, however, varies heavily between object classes and exhibits pronounced out-of-domain effects. We can identify individual errors as well as systematic failure categories including object coverage, unusual scenes and correlated contexts.
- Abstract(参考訳): CLIPモデルのようなデュアルエンコーダアーキテクチャは、2種類の入力を共有埋め込み空間にマッピングし、それらの類似性を予測します。
しかし、その成功にもかかわらず、これらのモデルがどのように2つの入力を比較するかは理解されていない。
一般的な一階特徴帰属法は、個々の特徴よりも特徴の相互作用に依存するため、二重エンコーダに対する限られた洞察しか得られない。
本稿では,まず,その入力間の特徴-相互作用に対して,任意の微分可能なデュアルエンコーダによる予測の帰属を可能にする2階法を導出する。
次に,この手法をCLIPモデルに適用し,キャプション部分と画像中の領域間の微粒な対応を学習することを示す。
入力モードにまたがるオブジェクトにマッチする。
しかし、この視覚言語的な接地能力は、オブジェクトクラス間で大きく異なり、ドメイン外効果が顕著である。
個々のエラーと、オブジェクトカバレッジ、異常シーン、相関コンテキストを含む、系統的な障害カテゴリを識別できる。
関連論文リスト
- Dual Feature Augmentation Network for Generalized Zero-shot Learning [14.410978100610489]
ゼロショット学習 (ZSL) は,見知らぬクラスから知識を伝達することによって,サンプルを訓練せずに新しいクラスを推論することを目的としている。
ZSLの既存の埋め込みベースのアプローチは、画像上の属性を見つけるために注意機構を用いるのが一般的である。
本稿では,2つの機能拡張モジュールからなる新しいDual Feature Augmentation Network (DFAN)を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:37:52Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Unsupervised learning of features and object boundaries from local
prediction [0.0]
本稿では,各因子が追加のバイナリ変数とペアリングされ,その因子をオン/オフに切り替える,ペアワイズマルコフ確率場モデルによる特徴写像の層を導入する。
マルコフ確率場要素の特徴とパラメータの両方を、さらなる監視信号なしで画像から学習することができる。
宇宙空間での計算予測はセグメンテーションと特徴学習の両方に役立ち、これらの予測を最適化するために訓練されたモデルは人間の視覚システムと類似性を示す。
論文 参考訳(メタデータ) (2022-05-27T18:54:10Z) - IMACS: Image Model Attribution Comparison Summaries [16.80986701058596]
我々は,勾配に基づくモデル属性とアグリゲーションと可視化技術を組み合わせたIMACSを提案する。
IMACSは評価データセットから適切な入力特徴を抽出し、類似性に基づいてクラスタ化し、類似した入力特徴に対するモデル属性の違いを可視化する。
本稿では,衛星画像上で訓練した2つのモデル間の領域シフトによる行動差を明らかにする方法を示す。
論文 参考訳(メタデータ) (2022-01-26T21:35:14Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Learning-From-Disagreement: A Model Comparison and Visual Analytics
Framework [21.055845469999532]
本稿では,2つの分類モデルを視覚的に比較するフレームワークを提案する。
具体的には、不一致のインスタンスから学ぶために差別者を訓練する。
我々は、訓練された識別器を、異なるメタ特徴のSHAP値で解釈する。
論文 参考訳(メタデータ) (2022-01-19T20:15:35Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Partner-Assisted Learning for Few-Shot Image Classification [54.66864961784989]
人間の視覚能力を模倣し、徹底的な人間のアノテーションを必要とせずに効果的なモデルを学ぶために、わずかなショットラーニングが研究されている。
本稿では,新しいクラスのプロトタイプをラベル付きサンプルから推定できるように,要素表現を得るためのトレーニング戦略の設計に焦点をあてる。
本稿では,まずパートナーエンコーダのペアワイド類似性をモデル化し,ソフトアンカーとして機能する特徴を抽出し,その出力をソフトアンカーと整列させ,分類性能を最大化しようとする2段階トレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T22:46:19Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。