論文の概要: Explaining Vision-Language Similarities in Dual Encoders with Feature-Pair Attributions
- arxiv url: http://arxiv.org/abs/2408.14153v1
- Date: Mon, 26 Aug 2024 09:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 14:23:20.225793
- Title: Explaining Vision-Language Similarities in Dual Encoders with Feature-Pair Attributions
- Title(参考訳): 特徴対属性を持つデュアルエンコーダの視覚・言語類似性の説明
- Authors: Lucas Möller, Pascal Tilli, Ngoc Thang Vu, Sebastian Padó,
- Abstract要約: 入力間の特徴対相互作用に、任意の微分可能なデュアルエンコーダの予測を属性付ける手法を導出する。
提案手法をCLIP型モデルに適用し,キャプション部分と画像中の領域間の微粒な対応を学習することを示す。
- 参考スコア(独自算出の注目度): 28.53636082915161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dual encoder architectures like CLIP models map two types of inputs into a shared embedding space and learn similarities between them. However, it is not understood how such models compare two inputs. Here, we address this research gap with two contributions. First, we derive a method to attribute predictions of any differentiable dual encoder onto feature-pair interactions between its inputs. Second, we apply our method to CLIP-type models and show that they learn fine-grained correspondences between parts of captions and regions in images. They match objects across input modes and also account for mismatches. However, this visual-linguistic grounding ability heavily varies between object classes, depends on the training data distribution, and largely improves after in-domain training. Using our method we can identify knowledge gaps about specific object classes in individual models and can monitor their improvement upon fine-tuning.
- Abstract(参考訳): CLIPモデルのようなデュアルエンコーダアーキテクチャは、2種類の入力を共有埋め込み空間にマッピングし、それらの類似性を学ぶ。
しかし、そのようなモデルがどのように2つの入力を比較するかは理解されていない。
ここでは、この研究ギャップを2つのコントリビューションで解決する。
まず,任意の微分可能なデュアルエンコーダの予測を,入力間の特徴対相互作用に属性付ける手法を導出する。
次に,この手法をCLIP型モデルに適用し,キャプション部分と画像中の領域間の微粒な対応を学習することを示す。
それらは入力モード間でオブジェクトと一致し、ミスマッチも考慮します。
しかし、この視覚言語的接地能力は、オブジェクトクラス間で大きく異なり、トレーニングデータ分布に依存し、ドメイン内のトレーニング後に大きく改善される。
提案手法を用いることで,個々のモデルにおける特定のオブジェクトクラスに関する知識ギャップを識別し,微調整による改善を監視できる。
関連論文リスト
- Dual Feature Augmentation Network for Generalized Zero-shot Learning [14.410978100610489]
ゼロショット学習 (ZSL) は,見知らぬクラスから知識を伝達することによって,サンプルを訓練せずに新しいクラスを推論することを目的としている。
ZSLの既存の埋め込みベースのアプローチは、画像上の属性を見つけるために注意機構を用いるのが一般的である。
本稿では,2つの機能拡張モジュールからなる新しいDual Feature Augmentation Network (DFAN)を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:37:52Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Unsupervised learning of features and object boundaries from local
prediction [0.0]
本稿では,各因子が追加のバイナリ変数とペアリングされ,その因子をオン/オフに切り替える,ペアワイズマルコフ確率場モデルによる特徴写像の層を導入する。
マルコフ確率場要素の特徴とパラメータの両方を、さらなる監視信号なしで画像から学習することができる。
宇宙空間での計算予測はセグメンテーションと特徴学習の両方に役立ち、これらの予測を最適化するために訓練されたモデルは人間の視覚システムと類似性を示す。
論文 参考訳(メタデータ) (2022-05-27T18:54:10Z) - IMACS: Image Model Attribution Comparison Summaries [16.80986701058596]
我々は,勾配に基づくモデル属性とアグリゲーションと可視化技術を組み合わせたIMACSを提案する。
IMACSは評価データセットから適切な入力特徴を抽出し、類似性に基づいてクラスタ化し、類似した入力特徴に対するモデル属性の違いを可視化する。
本稿では,衛星画像上で訓練した2つのモデル間の領域シフトによる行動差を明らかにする方法を示す。
論文 参考訳(メタデータ) (2022-01-26T21:35:14Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Learning-From-Disagreement: A Model Comparison and Visual Analytics
Framework [21.055845469999532]
本稿では,2つの分類モデルを視覚的に比較するフレームワークを提案する。
具体的には、不一致のインスタンスから学ぶために差別者を訓練する。
我々は、訓練された識別器を、異なるメタ特徴のSHAP値で解釈する。
論文 参考訳(メタデータ) (2022-01-19T20:15:35Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Partner-Assisted Learning for Few-Shot Image Classification [54.66864961784989]
人間の視覚能力を模倣し、徹底的な人間のアノテーションを必要とせずに効果的なモデルを学ぶために、わずかなショットラーニングが研究されている。
本稿では,新しいクラスのプロトタイプをラベル付きサンプルから推定できるように,要素表現を得るためのトレーニング戦略の設計に焦点をあてる。
本稿では,まずパートナーエンコーダのペアワイド類似性をモデル化し,ソフトアンカーとして機能する特徴を抽出し,その出力をソフトアンカーと整列させ,分類性能を最大化しようとする2段階トレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T22:46:19Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。