Fugu-MT 論文翻訳(概要): Identifying Interpretable Subspaces in Image Representations

論文の概要: Identifying Interpretable Subspaces in Image Representations

arxiv url: http://arxiv.org/abs/2307.10504v2
Date: Thu, 7 Sep 2023 18:46:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-11 17:45:09.754466
Title: Identifying Interpretable Subspaces in Image Representations
Title（参考訳）: 画像表現における解釈可能な部分空間の同定
Authors: Neha Kalibhat, Shweta Bhardwaj, Bayan Bruss, Hamed Firooz, Maziar Sanjabi, Soheil Feizi
Abstract要約: コントラスト概念(FALCON)を用いて画像表現の特徴を説明する枠組みを提案する。ターゲット機能として、FALCONは、大きなキャプションデータセットとCLIPのようなトレーニング済みの視覚言語モデルを使用して、高機能なトリミング画像をキャプションする。キャプション内の各単語は、少数の共有された人間の理解可能な概念に導かれ、ランク付けされる。
参考スコア（独自算出の注目度）: 54.821222487956355
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We propose Automatic Feature Explanation using Contrasting Concepts (FALCON), an interpretability framework to explain features of image representations. For a target feature, FALCON captions its highly activating cropped images using a large captioning dataset (like LAION-400m) and a pre-trained vision-language model like CLIP. Each word among the captions is scored and ranked leading to a small number of shared, human-understandable concepts that closely describe the target feature. FALCON also applies contrastive interpretation using lowly activating (counterfactual) images, to eliminate spurious concepts. Although many existing approaches interpret features independently, we observe in state-of-the-art self-supervised and supervised models, that less than 20% of the representation space can be explained by individual features. We show that features in larger spaces become more interpretable when studied in groups and can be explained with high-order scoring concepts through FALCON. We discuss how extracted concepts can be used to explain and debug failures in downstream tasks. Finally, we present a technique to transfer concepts from one (explainable) representation space to another unseen representation space by learning a simple linear transformation. Code available at https://github.com/NehaKalibhat/falcon-explain.
Abstract（参考訳）: 画像表現の特徴を解釈可能なフレームワークであるコントラスト概念(FALCON)を用いた自動特徴記述を提案する。ターゲット機能としてFALCONは、大きなキャプションデータセット(LAION-400mなど)とCLIPのような訓練済みの視覚言語モデルを使って、高機能なクロップ画像をキャプションする。キャプションの中の各単語はランク付けされ、ターゲットの特徴を詳細に記述した少数の共有、人間理解可能な概念へと導かれる。 FALCONはまた、低活性化(偽造)画像を用いた対照的な解釈を適用して、急激な概念を排除した。既存の多くのアプローチは独立して特徴を解釈するが、最先端の自己監督モデルや教師付きモデルでは、表現空間の20%未満は個々の特徴によって説明できる。より広い空間における特徴は、グループで研究するとより解釈しやすくなり、FALCONを通して高次スコアリングの概念で説明できることを示す。下流タスクにおける障害の説明とデバッグに抽出された概念をどのように利用できるかについて議論する。最後に、簡単な線形変換を学習することにより、ある(説明可能な)表現空間から別の見えない表現空間へ概念を移す手法を提案する。コードはhttps://github.com/nehakalibhat/falcon-explain。

関連論文リスト

LUCID-SAE: Learning Unified Vision-Language Sparse Codes for Interpretable Concept Discovery [14.222802170483739]
LUCIDは、画像パッチとテキストトークン表現のための共有潜在辞書を学習する視覚言語スパースオートエンコーダである。 LUCIDは、パッチレベルのグラウンド化をサポートし、クロスモーダルなニューロン対応を確立し、概念クラスタリング問題に対する堅牢性を高める、解釈可能な共有特徴をもたらす。我々の分析では、LUCIDの共有機能は、アクション、属性、抽象概念を含む、オブジェクト以外の多様なセマンティックなカテゴリをキャプチャする。
論文参考訳（メタデータ） (2026-02-07T02:01:25Z)
Insight: Interpretable Semantic Hierarchies in Vision-Language Encoders [52.94006363830628]
言語対応の視覚基盤モデルは、下流の様々なタスクで強く機能する。近年の研究では、これらの表現を人間の解釈可能な概念に分解するが、空間的接地が乏しく、画像分類に限られている。入力画像に人間が解釈可能で空間的に接地した、きめ細かい概念を提供する言語対応概念基盤モデルであるInsightを提案する。
論文参考訳（メタデータ） (2026-01-20T09:57:26Z)
VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set [80.50996301430108]
視覚言語表現のアライメントは、強いマルチモーダル推論能力を持つ現在のビジョン言語モデルを実現する。視覚言語表現をその隠れアクティベーションにエンコードするスパースオートエンコーダVL-SAEを提案する。解釈において、視覚と言語表現のアライメントは、意味論と概念を比較することで理解することができる。
論文参考訳（メタデータ） (2025-10-24T10:29:31Z)
Seeing Through Words, Speaking Through Pixels: Deep Representational Alignment Between Vision and Language Models [4.5497948012757865]
両モデルタイプの中間層から後期層にアライメントピークが存在することが判明した。画像キャプチャマッチの人間の好みは、すべての視覚言語モデルペアの埋め込み空間に反映される。
論文参考訳（メタデータ） (2025-09-25T05:16:28Z)
SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。 CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文参考訳（メタデータ） (2025-07-29T22:26:20Z)
Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文参考訳（メタデータ） (2024-12-05T18:52:00Z)
Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。双曲型視覚言語モデルのための構成的包摂学習を提案する。数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文参考訳（メタデータ） (2024-10-09T14:12:50Z)
Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文参考訳（メタデータ） (2024-08-01T15:46:22Z)
Rewrite Caption Semantics: Bridging Semantic Gaps for Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。 CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文参考訳（メタデータ） (2023-09-24T00:05:39Z)
Cross-Modal Concept Learning and Inference for Vision-Language Models [31.463771883036607]
既存の微調整法では、クラス固有のテキスト記述は画像全体と一致している。我々は、クロスモデル概念学習と推論(CCLI)と呼ばれる新しい手法を開発した。本手法は,意味テキストの集合を用いて画像から視覚的特徴の集合を自動的に学習する。
論文参考訳（メタデータ） (2023-07-28T10:26:28Z)
Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文参考訳（メタデータ） (2022-05-28T14:27:38Z)
FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic descriptions, and Conceptual Relations [99.54048050189971]
自然に発生する複数のデータストリームによってガイドされる新しい視覚概念を素早く学習するフレームワークを提案する。学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。合成と実世界の両方のデータセットにおけるモデルの有効性を実証する。
論文参考訳（メタデータ） (2022-03-30T19:45:00Z)
Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文参考訳（メタデータ） (2020-02-27T16:45:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。