Fugu-MT 論文翻訳(概要): Metonymy in vision models undermines attention-based interpretability

論文の概要: Metonymy in vision models undermines attention-based interpretability

arxiv url: http://arxiv.org/abs/2605.06095v1
Date: Thu, 07 May 2026 12:14:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-08 22:27:11.75683
Title: Metonymy in vision models undermines attention-based interpretability
Title（参考訳）: 視覚モデルにおけるメトニミーは注意に基づく解釈性を損なう
Authors: Ananthu Aniraj, Cassio F. Dantas, Dino Ienco, Massimiliano Mancini, Diego Marcos,
Abstract要約: パートベース推論(Part-based reasoning)は、コンピュータビジョンモデルを下流タスクに関連するオブジェクト部品に直接フォーカスさせる戦略である。本研究では,現代の事前学習型視覚トランスフォーマーが局所性仮定に反し,物体内リークが強いことを示す。そして,この非絡み合った特徴抽出により,様々なタスクにおける属性駆動型部分発見が向上することを示す。
参考スコア（独自算出の注目度）: 31.26551387218204
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Part-based reasoning is a classical strategy to make a computer vision model directly focus on the object parts that are relevant to the downstream task. In the context of deep learning, this also serves to improve by-design interpretability, often by using part-centric attention mechanisms on top of a latent image representation provided by a standard, black-box model. This approach is based on a locality assumption: that the latent representation of an object part encodes primarily information about the corresponding image region. In this work, we test this basic assumption, measuring intra-object leakage in vision models using part-based attribute annotations. Through a comprehensive experimental evaluation, we show that modern pretrained vision transformers violate the locality assumption and exhibit a strong intra-object leakage, in which each part encodes information from the whole object, a visual metonymy that compromises the faithfulness of attention-based interpretable-by-design methods for part-based reasoning, ultimately rendering them uninterpretable. In addition, we establish an upper bound using a two-stage approach that prevents leakage by design. We then show that this inherently disentangled feature extraction improves attribute-driven part discovery on a variety of tasks, confirming the practical impact of intra-object leakage. Our results uncover a neglected issue affecting the interpretability of part-based representations, such as those in CBMs relying on part-centric concepts, highlighting that two-stage approaches offer a promising way to mitigate it.
Abstract（参考訳）: パートベース推論(Part-based reasoning)は、コンピュータビジョンモデルをダウンストリームタスクに関連するオブジェクト部品に直接フォーカスさせる古典的な戦略である。ディープラーニングの文脈では、しばしば標準のブラックボックスモデルによって提供される潜在画像表現の上に、部分中心の注意機構を使用することで、副設計の解釈可能性を改善するのにも役立ちます。このアプローチは、オブジェクト部分の潜在表現が、主に対応する画像領域に関する情報を符号化する、という局所性の仮定に基づいている。本研究では,この基本的な仮定を検証し,部分的属性アノテーションを用いて視覚モデル内の物体内部の漏洩を測定する。総合的な実験的評価により、現代の事前学習型視覚トランスフォーマーは局所性前提に反し、オブジェクト全体の情報をエンコードする強力なオブジェクト内リークを示す。さらに,設計による漏洩を防止するための2段階アプローチを用いて上界を確立する。そして,この特徴抽出により,様々なタスクにおける属性駆動部分発見が向上し,オブジェクト内リークの実践的影響が確認できることを示す。この結果から,CBMにおける部分中心概念への依存など,部分中心表現の解釈可能性に影響を及ぼす無視された問題を明らかにするとともに,2段階的アプローチがそれを緩和する有望な手段であることを強調した。

関連論文リスト

Multi-Part Object Representations via Graph Structures and Co-Part Discovery [24.418060973308908]
本稿では,部分の明示的なグラフ表現を活用する新しい手法を提案する。シミュレーション,現実的,実世界の画像による実験結果は,最先端の手法と比較して,発見対象の品質が著しく向上したことを示している。また、検出したオブジェクト中心表現により、下流タスクにおける重要なオブジェクト特性をより正確に予測できることを示す。
論文参考訳（メタデータ） (2025-12-20T03:38:41Z)
Lost in Embeddings: Information Loss in Vision-Language Models [38.8742043080561]
視覚言語モデルは、しばしば事前訓練された視覚エンコーダを通して視覚入力を処理し、続いてコネクタコンポーネントを介して言語モデルの埋め込み空間に投影する。この射影ステップによって引き起こされる潜在的な情報損失と、モデル能力に対する直接的な影響は、まだ検討されていない。潜在表現空間を解析することにより、この損失を検証・定量化するための2つの補完的アプローチを導入する。
論文参考訳（メタデータ） (2025-09-15T14:38:06Z)
Oh-A-DINO: Understanding and Enhancing Attribute-Level Information in Self-Supervised Object-Centric Representations [9.949149600332836]
自己教師付き視覚モデルとスロットベース表現はエッジ由来の幾何学の同定に優れるが、幾何学的でない表面レベルの手がかりを保存できない。 VAE正則化はコンパクトで不整合なオブジェクト中心の表現を強制し、これらの欠落した属性を復元する。
論文参考訳（メタデータ） (2025-03-12T21:57:41Z)
An Investigation on The Position Encoding in Vision-Based Dynamics Prediction [19.700374722227107]
RGB画像と単純なオブジェクト記述を利用してオブジェクト状態を予測するビジョンベースの動的予測モデルは、環境のミスアライメントによって挑戦された。本稿では,出力特徴を抽象化するオブジェクトとしてバウンディングボックスを用いて位置情報を符号化するプロセスと必要な条件について検討する。
論文参考訳（メタデータ） (2024-08-27T17:02:03Z)
Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
Spotlight Attention: Robust Object-Centric Learning With a Spatial Locality Prior [88.9319150230121]
オブジェクト中心のビジョンは、シーン内のオブジェクトの明示的な表現を構築することを目的としています。我々は、空間的局所性を最先端のオブジェクト中心視覚モデルに組み込む。合成および実世界の両方のデータセットにおけるセグメンテーションオブジェクトの大幅な改善が得られた。
論文参考訳（メタデータ） (2023-05-31T04:35:50Z)
Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文参考訳（メタデータ） (2021-11-11T17:59:42Z)
Revisiting spatio-temporal layouts for compositional action recognition [63.04778884595353]
私たちは、アクション認識にオブジェクト中心のアプローチを取ります。本論文の主な焦点は、合成/ファウショット動作認識である。レイアウトモデルとの融合による外観モデルの性能向上を実証する。
論文参考訳（メタデータ） (2021-11-02T23:04:39Z)
Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文参考訳（メタデータ） (2021-03-09T19:14:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。