Fugu-MT 論文翻訳(概要): Explaining Caption-Image Interactions in CLIP models with Second-Order Attributions

論文の概要: Explaining Caption-Image Interactions in CLIP models with Second-Order Attributions

arxiv url: http://arxiv.org/abs/2408.14153v3
Date: Thu, 06 Mar 2025 09:00:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-07 15:06:36.148618
Title: Explaining Caption-Image Interactions in CLIP models with Second-Order Attributions
Title（参考訳）: 2次属性を持つCLIPモデルにおけるキャプション-イメージ相互作用の解説
Authors: Lucas Möller, Pascal Tilli, Ngoc Thang Vu, Sebastian Padó,
Abstract要約: CLIPモデルは、2種類の入力を共有埋め込み空間にマッピングし、それらの類似性を予測します。しかし、その成功にもかかわらず、これらのモデルがどのように2つの入力を比較するかは理解されていない。一般的な1次特徴属性法は、デュアルエンコーダに対する限られた洞察しか提供できない。
参考スコア（独自算出の注目度）: 28.53636082915161
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Dual encoder architectures like CLIP models map two types of inputs into a shared embedding space and predict similarities between them. Despite their success, it is, however, not understood how these models compare their two inputs. Common first-order feature-attribution methods can only provide limited insights into dual-encoders since their predictions depend on feature-interactions rather than on individual features. In this paper, we first derive a second-order method enabling the attribution of predictions by any differentiable dual encoder onto feature-interactions between its inputs. Second, we apply our method to CLIP models and show that they learn fine-grained correspondences between parts of captions and regions in images. They match objects across input modes also account for mismatches. This visual-linguistic grounding ability, however, varies heavily between object classes and exhibits pronounced out-of-domain effects. We can identify individual errors as well as systematic failure categories including object coverage, unusual scenes and correlated contexts.
Abstract（参考訳）: CLIPモデルのようなデュアルエンコーダアーキテクチャは、2種類の入力を共有埋め込み空間にマッピングし、それらの類似性を予測します。しかし、その成功にもかかわらず、これらのモデルがどのように2つの入力を比較するかは理解されていない。一般的な一階特徴帰属法は、個々の特徴よりも特徴の相互作用に依存するため、二重エンコーダに対する限られた洞察しか得られない。本稿では,まず,その入力間の特徴-相互作用に対して,任意の微分可能なデュアルエンコーダによる予測の帰属を可能にする2階法を導出する。次に,この手法をCLIPモデルに適用し,キャプション部分と画像中の領域間の微粒な対応を学習することを示す。入力モードにまたがるオブジェクトにマッチする。しかし、この視覚言語的な接地能力は、オブジェクトクラス間で大きく異なり、ドメイン外効果が顕著である。個々のエラーと、オブジェクトカバレッジ、異常シーン、相関コンテキストを含む、系統的な障害カテゴリを識別できる。

関連論文リスト

Explaining Similarity in Vision-Language Encoders with Weighted Banzhaf Interactions [25.897711293173362]
言語画像事前学習(LIP)は、ゼロショット分類、ローカライゼーション、マルチモーダル検索、意味理解が可能な視覚言語モデルの開発を可能にする。モデル類似度出力における入力画像とテキストのペアの重要性を可視化する様々な説明法が提案されている。我々は、視覚言語エンコーダの類似性を分解するための統一的なアプローチとして、LIPモデルの忠実な相互作用説明(FIxLIP)を導入する。
論文参考訳（メタデータ） (2025-08-07T14:18:56Z)
Open-Vocabulary HOI Detection with Interaction-aware Prompt and Concept Calibration [42.24582981160835]
オープンヒューマンオブジェクトインタラクション(HOI)は、人間とオブジェクト間のインタラクションを検出することを目的としている。現在の手法はビジョンと言語モデル(VLM)に頼っていることが多いが、最適な画像エンコーダによる課題に直面している。 Interaction-aware Prompting with Concept (INP-CC) を提案する。
論文参考訳（メタデータ） (2025-08-05T08:33:58Z)
Selecting and Pruning: A Differentiable Causal Sequentialized State-Space Model for Two-View Correspondence Learning [36.25732435294088]
2視点対応学習は,イメージペア間の真と偽の対応を識別することを目的としている。 Mamba固有の選択性にインスパイアされ、textbfCorrMamba, textbfCor correspondingence filterを提案する。我々の方法は、AUC@20textdegreeにおいて、以前のSOTAを2.58ドルの絶対パーセンテージポイントで上回っている。
論文参考訳（メタデータ） (2025-03-23T04:44:21Z)
Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文参考訳（メタデータ） (2024-07-16T13:00:33Z)
Dual Feature Augmentation Network for Generalized Zero-shot Learning [14.410978100610489]
ゼロショット学習 (ZSL) は,見知らぬクラスから知識を伝達することによって,サンプルを訓練せずに新しいクラスを推論することを目的としている。 ZSLの既存の埋め込みベースのアプローチは、画像上の属性を見つけるために注意機構を用いるのが一般的である。本稿では,2つの機能拡張モジュールからなる新しいDual Feature Augmentation Network (DFAN)を提案する。
論文参考訳（メタデータ） (2023-09-25T02:37:52Z)
DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文参考訳（メタデータ） (2023-04-01T08:06:43Z)
Unsupervised learning of features and object boundaries from local prediction [0.0]
本稿では,各因子が追加のバイナリ変数とペアリングされ,その因子をオン/オフに切り替える,ペアワイズマルコフ確率場モデルによる特徴写像の層を導入する。マルコフ確率場要素の特徴とパラメータの両方を、さらなる監視信号なしで画像から学習することができる。宇宙空間での計算予測はセグメンテーションと特徴学習の両方に役立ち、これらの予測を最適化するために訓練されたモデルは人間の視覚システムと類似性を示す。
論文参考訳（メタデータ） (2022-05-27T18:54:10Z)
COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文参考訳（メタデータ） (2022-04-15T12:34:47Z)
Fine-grained Temporal Contrastive Learning for Weakly-supervised Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文参考訳（メタデータ） (2022-03-31T05:13:50Z)
Partitioning Image Representation in Contrastive Learning [0.0]
コントラスト学習において,アンカーの共通および特異な特徴と正のサンプルの両方を学習できる新しい表現,分割表現を導入する。本稿では,VAEフレームワーク内の2種類の情報を分離し,従来のBYOLを線形分離性で上回り,下流タスクとして数ショットの学習タスクを実現できることを示す。
論文参考訳（メタデータ） (2022-03-20T04:55:39Z)
Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文参考訳（メタデータ） (2022-03-14T13:55:33Z)
IMACS: Image Model Attribution Comparison Summaries [16.80986701058596]
我々は,勾配に基づくモデル属性とアグリゲーションと可視化技術を組み合わせたIMACSを提案する。 IMACSは評価データセットから適切な入力特徴を抽出し、類似性に基づいてクラスタ化し、類似した入力特徴に対するモデル属性の違いを可視化する。本稿では,衛星画像上で訓練した2つのモデル間の領域シフトによる行動差を明らかにする方法を示す。
論文参考訳（メタデータ） (2022-01-26T21:35:14Z)
MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文参考訳（メタデータ） (2022-01-25T22:30:54Z)
Learning-From-Disagreement: A Model Comparison and Visual Analytics Framework [21.055845469999532]
本稿では,2つの分類モデルを視覚的に比較するフレームワークを提案する。具体的には、不一致のインスタンスから学ぶために差別者を訓練する。我々は、訓練された識別器を、異なるメタ特徴のSHAP値で解釈する。
論文参考訳（メタデータ） (2022-01-19T20:15:35Z)
Dual Prototypical Contrastive Learning for Few-shot Semantic Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-11-09T08:14:50Z)
Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文参考訳（メタデータ） (2021-10-05T15:39:11Z)
Partner-Assisted Learning for Few-Shot Image Classification [54.66864961784989]
人間の視覚能力を模倣し、徹底的な人間のアノテーションを必要とせずに効果的なモデルを学ぶために、わずかなショットラーニングが研究されている。本稿では,新しいクラスのプロトタイプをラベル付きサンプルから推定できるように,要素表現を得るためのトレーニング戦略の設計に焦点をあてる。本稿では,まずパートナーエンコーダのペアワイド類似性をモデル化し,ソフトアンカーとして機能する特徴を抽出し,その出力をソフトアンカーと整列させ,分類性能を最大化しようとする2段階トレーニング手法を提案する。
論文参考訳（メタデータ） (2021-09-15T22:46:19Z)
CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文参考訳（メタデータ） (2021-04-30T05:46:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。