論文の概要: Learning complete and explainable visual representations from itemized text supervision
- arxiv url: http://arxiv.org/abs/2512.11141v1
- Date: Thu, 11 Dec 2025 22:01:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.584618
- Title: Learning complete and explainable visual representations from itemized text supervision
- Title(参考訳): 項目別テキスト管理による完全かつ説明可能な視覚表現の学習
- Authors: Yiwei Lyu, Chenhui Zhao, Soumyanil Banerjee, Shixuan Liu, Akshay Rao, Akhil Kondepudi, Honglak Lee, Todd C. Hollon,
- Abstract要約: ItemizedCLIPは、アイテム化されたテキスト管理から完全かつ説明可能な視覚表現を学ぶためのフレームワークである。
ゼロショット性能を大幅に改善し、ベースラインよりもきめ細かい解釈性を実現している。
- 参考スコア(独自算出の注目度): 43.115488613852506
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Training vision models with language supervision enables general and transferable representations. However, many visual domains, especially non-object-centric domains such as medical imaging and remote sensing, contain itemized text annotations: multiple text items describing distinct and semantically independent findings within a single image. Such supervision differs from standard multi-caption supervision, where captions are redundant or highly overlapping. Here, we introduce ItemizedCLIP, a framework for learning complete and explainable visual representations from itemized text supervision. ItemizedCLIP employs a cross-attention module to produce text item-conditioned visual embeddings and a set of tailored objectives that jointly enforce item independence (distinct regions for distinct items) and representation completeness (coverage of all items). Across four domains with naturally itemized text supervision (brain MRI, head CT, chest CT, remote sensing) and one additional synthetically itemized dataset, ItemizedCLIP achieves substantial improvements in zero-shot performance and fine-grained interpretability over baselines. The resulting ItemizedCLIP representations are semantically grounded, item-differentiable, complete, and visually interpretable. Our code is available at https://github.com/MLNeurosurg/ItemizedCLIP.
- Abstract(参考訳): 言語指導による視覚モデルの訓練は、汎用的および伝達可能な表現を可能にする。
しかし、多くの視覚領域、特に医用画像やリモートセンシングのようなオブジェクト中心ではない領域は、アイテム化されたテキストアノテーションを含んでいる。
このような監督は、キャプションが冗長あるいは重なり合っている標準的なマルチキャプション管理とは異なる。
本稿では,項目別テキスト管理から完全かつ説明可能な視覚表現を学習するためのフレームワークであるItemizedCLIPを紹介する。
ItemizedCLIPは、テキストアイテム条件の視覚埋め込みを生成するために、クロスアテンションモジュールと、アイテム独立(異なるアイテムの特定領域)と表現完全性(すべてのアイテムのカバー)を共同で実施する調整された目的セットを使用する。
自然に項目化されたテキスト管理(脳MRI,頭部CT,胸部CT,リモートセンシング)と1つの追加の合成項目化データセットを持つ4つのドメインにおいて、ItemizedCLIPは、ゼロショット性能とベースライン上での微粒化解釈性を大幅に改善する。
結果のItemizedCLIP表現は、セマンティックグラウンド、アイテム微分可能、完全、視覚的に解釈可能である。
私たちのコードはhttps://github.com/MLNeurosurg/ItemizedCLIPで利用可能です。
関連論文リスト
- Latent Expression Generation for Referring Image Segmentation and Grounding [13.611995923070426]
既存のほとんどのメソッドは単一のテキスト入力に依存しており、視覚領域で利用可能なリッチな情報のごく一部しか取得できない。
このリッチ・ビジュアル・ディテールと粗雑なテキスト・キューのミスマッチは、類似したオブジェクトの誤識別につながる可能性がある。
単一のテキスト入力から生成された複数の潜在表現を利用する新しい視覚的グラウンドディングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-07T07:57:27Z) - SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。
CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。
モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文 参考訳(メタデータ) (2025-07-29T22:26:20Z) - Linguistics-aware Masked Image Modeling for Self-supervised Scene Text Recognition [50.86415025650168]
マスク付き画像モデリング(MIM)は、局所的な構造を利用して視覚パターンを再構築する傾向があり、言語知識は限られている。
本稿では,言語情報とMIMの復号過程を別ブランチで関連づける,言語学対応の仮面画像モデリング(LMIM)手法を提案する。
論文 参考訳(メタデータ) (2025-03-24T14:53:35Z) - Semantic Token Reweighting for Interpretable and Controllable Text Embeddings in CLIP [46.53595526049201]
CLIPのようなVision-Language Models (VLM)内のテキストエンコーダは、画像と共有する埋め込み空間へのテキスト入力の変換において重要な役割を果たす。
解釈可能なテキスト埋め込み(SToRI)を構築するためのセマンティックトークン再重み付けフレームワークを提案する。
SToRIは文脈的重要性に基づいて意味的要素を差分重み付けすることでCLIPのテキスト符号化プロセスを洗練する。
論文 参考訳(メタデータ) (2024-10-11T02:42:13Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。