論文の概要: Explaining, Verifying, and Aligning Semantic Hierarchies in Vision-Language Model Embeddings
- arxiv url: http://arxiv.org/abs/2603.26798v1
- Date: Thu, 26 Mar 2026 00:38:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.624448
- Title: Explaining, Verifying, and Aligning Semantic Hierarchies in Vision-Language Model Embeddings
- Title(参考訳): 視覚言語モデル埋め込みにおける意味階層の説明、検証、調整
- Authors: Gesina Schwalbe, Mert Keser, Moritz Bayerkuhnlein, Edgar Heinert, Annika Mütze, Marvin Keller, Sparsh Tiwari, Georgii Mikriukov, Diedrich Wolter, Jae Hee Lee, Matthias Rottmann,
- Abstract要約: 本稿では,VLMによって誘発されるセマンティック階層を,特定の子クラスに対して説明し,検証し,調整するためのポストホックフレームワークを提案する。
我々は,効率的な木認識とエッジレベルの整合性尺度を用いて,抽出した木と人間の検索を比較して妥当性を定量化し,説明可能な階層木トラバース推定による有用性を評価する。
- 参考スコア(独自算出の注目度): 10.299190830046872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language model (VLM) encoders such as CLIP enable strong retrieval and zero-shot classification in a shared image-text embedding space, yet the semantic organization of this space is rarely inspected. We present a post-hoc framework to explain, verify, and align the semantic hierarchies induced by a VLM over a given set of child classes. First, we extract a binary hierarchy by agglomerative clustering of class centroids and name internal nodes by dictionary-based matching to a concept bank. Second, we quantify plausibility by comparing the extracted tree against human ontologies using efficient tree- and edge-level consistency measures, and we evaluate utility via explainable hierarchical tree-traversal inference with uncertainty-aware early stopping (UAES). Third, we propose an ontology-guided post-hoc alignment method that learns a lightweight embedding-space transformation, using UMAP to generate target neighborhoods from a desired hierarchy. Across 13 pretrained VLMs and 4 image datasets, our method finds systematic modality differences: image encoders are more discriminative, while text encoders induce hierarchies that better match human taxonomies. Overall, the results reveal a persistent trade-off between zero-shot accuracy and ontological plausibility and suggest practical routes to improve semantic alignment in shared embedding spaces.
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)エンコーダは、共有画像テキスト埋め込み空間における強い検索とゼロショット分類を可能にするが、この空間のセマンティックな構造を検査することは滅多にない。
本稿では,VLMによって誘発されるセマンティック階層を,与えられた児童クラスに対して説明し,検証し,調整するためのポストホックフレームワークを提案する。
まず,概念バンクへの辞書ベースのマッチングにより,クラスセントロイドと内部ノードの集合クラスタリングによりバイナリ階層を抽出する。
第2に,効率的な木レベル・エッジレベルの整合性尺度を用いて,抽出した木とヒトのオントロジーを比較して妥当性を定量化し,不確実性認識早期停止(UAES)による説明可能な階層木トラバース推論により有用性を評価する。
第三に、UMAPを用いて軽量な埋め込み空間変換を学習し、所望階層から目標近傍を生成するオントロジー誘導ポストホックアライメント法を提案する。
13の事前訓練されたVLMと4つの画像データセットにまたがって、画像エンコーダはより差別的であり、テキストエンコーダは人間の分類によくマッチする階層を誘導する。
全体としては、ゼロショット精度とオントロジ的妥当性の間の永続的なトレードオフを明らかにし、共有埋め込み空間におけるセマンティックアライメントを改善するための実践的な方法を提案する。
関連論文リスト
- Improving LLM Reasoning with Homophily-aware Structural and Semantic Text-Attributed Graph Compression [55.51959317490934]
大規模言語モデル(LLM)は、テキスト分散グラフ(TAG)理解において有望な能力を示している。
グラフは本来、構造情報や意味情報を豊富に含むものであり、それらの有効利用はLLMの推論性能の潜在的な利益を解放する可能性があると論じる。
グラフホモフィリーの活用を目的としたフレームワーク LLMs (HS2C) のホモフィリー対応構造とセマンティック圧縮を提案する。
論文 参考訳(メタデータ) (2026-01-13T03:35:18Z) - Hierarchy-Aware Fine-Tuning of Vision-Language Models [18.244518940229202]
視覚言語モデルは、大規模な画像テキスト事前学習を通じて強力なマルチモーダル表現を学習する。
標準的アプローチはラベルをフラットなカテゴリとして扱い、完全な微調整を必要とする。
構造的一貫性を保ちつつ,いくつかのパラメータを更新する,効率的な階層型微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-25T06:44:33Z) - A Hierarchical Semantic Distillation Framework for Open-Vocabulary Object Detection [47.18069715855738]
本稿では,HD-OVDという階層型セマンティック蒸留フレームワークを提案する。
私たちのHD-OVDは、CLIPのインスタンス、クラス、イメージレベルから一般化可能な認識能力を継承します。
私たちは、OV-COCOデータセット上の新しいAPを、ResNet50のバックボーンで46.4%に引き上げました。
論文 参考訳(メタデータ) (2025-03-13T08:27:18Z) - Learning and Evaluating Hierarchical Feature Representations [3.770103075126785]
我々は、直交部分空間の階層的構成(Hier-COS)という新しい枠組みを提案する。
Hier-COSは、与えられた分類木の構造と整合した設計により、深い特徴埋め込みをベクトル空間にマッピングすることを学ぶ。
Hier-COSはすべてのデータセットにまたがって最先端の階層的パフォーマンスを実現し,同時に1つのケースを除いてトップ1の精度を上回ります。
論文 参考訳(メタデータ) (2025-03-10T20:59:41Z) - SGC-Net: Stratified Granular Comparison Network for Open-Vocabulary HOI Detection [16.89965584177711]
近年のオープン・ボキャブラリ・ヒューマン・オブジェクト・インタラクション(OV-HOI)検出手法は,補助的な記述を生成するために大規模言語モデル(LLM)に依存し,CLIPから抽出した知識を活用して未知の相互作用カテゴリを検出する。
1) テキストアライメントのための最終層視覚的特徴に依存し、中間層から重要なオブジェクトレベルの詳細を無視すること、(2) CLIPの特定のクラスに対する固有のバイアスに起因する意味的類似性混同、そしてラベルのみに基づくLCM生成記述は、クラス間の類似性を適切に捉えることができないこと、である。
論文 参考訳(メタデータ) (2025-03-01T09:26:05Z) - Bidirectional Logits Tree: Pursuing Granularity Reconcilement in Fine-Grained Classification [89.20477310885731]
本稿では,粒度分類タスクにおけるグラニュラリティコンペティションの課題について述べる。
既存のアプローチは通常、共通のベースエンコーダから抽出された共有特徴に基づいて、独立した階層認識モデルを開発する。
グラニュラリティ再構成のための双方向ロジットツリー(BiLT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-17T10:42:19Z) - Integrating Hierarchical Semantic into Iterative Generation Model for Entailment Tree Explanation [7.5496857647335585]
本稿では,HiSCG (Controller-Generator) の枠組みに基づいて文の階層的意味論を統合するアーキテクチャを提案する。
提案手法はEntailmentBankデータセットの3つの設定で同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-26T11:46:58Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Weakly-supervised Action Localization via Hierarchical Mining [76.00021423700497]
弱教師付きアクションローカライゼーションは、ビデオレベルの分類ラベルだけで、与えられたビデオ内のアクションインスタンスを時間的にローカライズし、分類することを目的としている。
ビデオレベルおよびスニペットレベルでの階層的マイニング戦略,すなわち階層的監視と階層的一貫性マイニングを提案する。
我々は、HiM-NetがTHUMOS14とActivityNet1.3データセットの既存の手法よりも、階層的に監督と一貫性をマイニングすることで、大きなマージンを持つことを示す。
論文 参考訳(メタデータ) (2022-06-22T12:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。