論文の概要: Insight: Interpretable Semantic Hierarchies in Vision-Language Encoders
- arxiv url: http://arxiv.org/abs/2601.13798v1
- Date: Tue, 20 Jan 2026 09:57:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.254848
- Title: Insight: Interpretable Semantic Hierarchies in Vision-Language Encoders
- Title(参考訳): Insight:ビジョンランゲージエンコーダの解釈可能なセマンティック階層
- Authors: Kai Wittenmayer, Sukrut Rao, Amin Parchami-Araghi, Bernt Schiele, Jonas Fischer,
- Abstract要約: 言語対応の視覚基盤モデルは、下流の様々なタスクで強く機能する。
近年の研究では、これらの表現を人間の解釈可能な概念に分解するが、空間的接地が乏しく、画像分類に限られている。
入力画像に人間が解釈可能で空間的に接地した、きめ細かい概念を提供する言語対応概念基盤モデルであるInsightを提案する。
- 参考スコア(独自算出の注目度): 52.94006363830628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-aligned vision foundation models perform strongly across diverse downstream tasks. Yet, their learned representations remain opaque, making interpreting their decision-making hard. Recent works decompose these representations into human-interpretable concepts, but provide poor spatial grounding and are limited to image classification tasks. In this work, we propose Insight, a language-aligned concept foundation model that provides fine-grained concepts, which are human-interpretable and spatially grounded in the input image. We leverage a hierarchical sparse autoencoder and a foundation model with strong semantic representations to automatically extract concepts at various granularities. Examining local co-occurrence dependencies of concepts allows us to define concept relationships. Through these relations we further improve concept naming and obtain richer explanations. On benchmark data, we show that Insight provides performance on classification and segmentation that is competitive with opaque foundation models while providing fine-grained, high quality concept-based explanations. Code is available at https://github.com/kawi19/Insight.
- Abstract(参考訳): 言語対応の視覚基盤モデルは、下流の様々なタスクで強く機能する。
しかし、彼らの学習した表現は不透明であり、意思決定を難しく解釈する。
近年の研究では、これらの表現を人間の解釈可能な概念に分解するが、空間的接地が乏しく、画像分類に限られている。
本研究では,入力画像に人間が解釈可能で空間的に接地した,きめ細かい概念を提供する言語対応概念基盤モデルであるInsightを提案する。
階層的なスパースオートエンコーダと強力な意味表現を持つ基礎モデルを利用して,様々な粒度の概念を自動的に抽出する。
概念の局所的共起依存性を調べることで、概念関係を定義することができる。
これらの関係を通じて、概念命名をさらに改善し、より豊かな説明を得る。
ベンチマークデータから、Insightは、不透明な基礎モデルと競合する分類とセグメンテーションのパフォーマンスを提供すると同時に、きめ細かい、高品質な概念ベースの説明を提供する。
コードはhttps://github.com/kawi19/Insightで入手できる。
関連論文リスト
- ConceptScope: Characterizing Dataset Bias via Disentangled Visual Concepts [54.60525564599342]
ConceptScopeは、ビジュアルデータセットを分析するためのスケーラブルで自動化されたフレームワークである。
概念を、その意味的関連性とクラスラベルとの統計的相関に基づいて、ターゲット、コンテキスト、バイアスタイプに分類する。
既知のバイアスを確実に検出し、未発表のバイアスを発見できる。
論文 参考訳(メタデータ) (2025-10-30T06:46:17Z) - FaCT: Faithful Concept Traces for Explaining Neural Network Decisions [56.796533084868884]
ディープネットワークは、幅広いタスクで顕著なパフォーマンスを示しているが、それらの機能に関するグローバルな概念レベルの理解は、依然として重要な課題である。
本稿では,概念に基づく説明の忠実さを強調し,モデル独立な機械的概念説明を用いた新しいモデルを提案する。
私たちの概念はクラス間で共有され、あらゆるレイヤから、ロジットへの貢献と入力-視覚化を忠実にトレースすることができます。
論文 参考訳(メタデータ) (2025-10-29T13:35:46Z) - VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set [80.50996301430108]
視覚言語表現のアライメントは、強いマルチモーダル推論能力を持つ現在のビジョン言語モデルを実現する。
視覚言語表現をその隠れアクティベーションにエンコードするスパースオートエンコーダVL-SAEを提案する。
解釈において、視覚と言語表現のアライメントは、意味論と概念を比較することで理解することができる。
論文 参考訳(メタデータ) (2025-10-24T10:29:31Z) - Analyzing Latent Concepts in Code Language Models [10.214183897113118]
グローバルなポストホック解釈可能性フレームワークであるコード概念分析(CoCoA)を提案する。
CoCoAは、コード言語モデルの表現空間における創発的語彙、構文、意味構造を明らかにする。
本稿では,静的解析ツールをベースとした構文アライメントと,プロンプトエンジニアリングによる大規模言語モデルを組み合わせたハイブリッドアノテーションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-01T03:53:21Z) - ConceptX: A Framework for Latent Concept Analysis [21.760620298330235]
本稿では,言語モデル(pLM)における潜在表現空間の解釈と注釈付けを行うための,ループ型ヒューマン・イン・ザ・ループ・フレームワークであるConceptXを提案する。
我々は、教師なしの手法を用いて、これらのモデルで学んだ概念を発見し、人間が概念の説明を生成するためのグラフィカルインターフェースを実現する。
論文 参考訳(メタデータ) (2022-11-12T11:31:09Z) - GlanceNets: Interpretabile, Leak-proof Concept-based Models [23.7625973884849]
概念ベースモデル(CBM)は、高レベルの概念の語彙の獲得と推論によって、ハイパフォーマンスと解釈可能性を組み合わせる。
我々は、モデル表現と基礎となるデータ生成プロセスとの整合性の観点から、解釈可能性を明確に定義する。
GlanceNetsは不整合表現学習とオープンセット認識の技法を利用してアライメントを実現する新しいCBMである。
論文 参考訳(メタデータ) (2022-05-31T08:53:53Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Translational Concept Embedding for Generalized Compositional Zero-shot
Learning [73.60639796305415]
一般合成ゼロショット学習は、ゼロショット方式で属性オブジェクト対の合成概念を学習する手段である。
本稿では,これら2つの課題を統一的なフレームワークで解決するために,翻訳概念の埋め込み(translational concept embedded)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-12-20T21:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。