論文の概要: Unlocking Text Capabilities in Vision Models
- arxiv url: http://arxiv.org/abs/2503.10981v2
- Date: Mon, 26 May 2025 08:45:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:53.649013
- Title: Unlocking Text Capabilities in Vision Models
- Title(参考訳): 視覚モデルにおけるテキストのアンロック機能
- Authors: Fawaz Sammani, Jonas Fischer, Nikos Deligiannis,
- Abstract要約: 本稿では,任意の事前学習された視覚分類器を,自由形式のテキストで検索できるように書き換える強力な手法を提案する。
提案手法は,ラベルフリー,データ,計算効率で,基礎となる分類器の分布と決定過程を保存するために訓練されている。
1)ラベルのない概念ボトルネックモデルとゼロショットの概念ボトルネックモデルの両方を構築し、視覚的分類器を本質的に解釈可能なものにし、2)視覚的特徴のゼロショットデコーディングを自然言語文に変換する。
- 参考スコア(独自算出の注目度): 26.280572432059085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual classifiers provide high-dimensional feature representations that are challenging to interpret and analyze. Text, in contrast, provides a more expressive and human-friendly interpretable medium for understanding and analyzing model behavior. We propose a simple, yet powerful method for reformulating any pretrained visual classifier so that it can be queried with free-form text without compromising its original performance. Our approach is label-free, data and compute-efficient, and is trained to preserve the underlying classifiers distribution and decision-making processes. Our method unlocks several zero-shot text interpretability applications for any visual classifier. We apply our method on 40 visual classifiers and demonstrate two primary applications: 1) building both label-free and zero-shot concept bottleneck models and therefore converting any visual classifier to be inherently-interpretable and 2) zero-shot decoding of visual features into natural language sentences. In both tasks we establish new state-of-the-art results, outperforming existing works and surpassing CLIP-based baselines with ImageNet-only trained classifiers, while using up to 400x fewer images and 400,000x less text during training.
- Abstract(参考訳): 視覚分類器は、解釈と解析が難しい高次元の特徴表現を提供する。
対照的にテキストは、モデル行動を理解し解析するための、より表現力があり、人間フレンドリな解釈可能な媒体を提供する。
本稿では,任意の事前学習された視覚分類器を,本来の性能を損なうことなく,自由形式のテキストでクエリできる簡易かつ強力な手法を提案する。
提案手法は,ラベルフリー,データ,計算効率で,基礎となる分類器の分布と決定過程を保存するために訓練されている。
本手法は,任意の視覚的分類器に対して,ゼロショットテキスト解釈可能性のアプリケーションをいくつかアンロックする。
40個の視覚分類器に本手法を適用し,2つの主要な応用例を示す。
1) ラベルフリーとゼロショットの両方の概念ボトルネックモデルを構築し、視覚分類器を本質的に解釈可能かつ変換する。
2) 自然言語文への視覚特徴のゼロショット復号化。
どちらのタスクも、新しい最先端の結果を確立し、既存の成果を上回り、ImageNetのみのトレーニング済みの分類器でCLIPベースのベースラインを上回り、トレーニング中に最大400倍のイメージと40,000倍のテキストを使用する。
関連論文リスト
- Evolving Interpretable Visual Classifiers with Large Language Models [34.4903887876357]
CLIPのようなマルチモーダル事前訓練モデルは、オープン語彙の柔軟性と高性能のため、ゼロショット分類に人気がある。
画像とクラスラベルの類似点を計算する視覚言語モデルは、ほとんどブラックボックスであり、解釈可能性の制限、バイアスのリスク、書き下がらない新しい視覚概念の発見ができない。
本稿では,視覚認識のための属性の解釈可能かつ差別的集合を検出する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-15T17:09:53Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。
我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文 参考訳(メタデータ) (2023-08-19T15:48:38Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Text2Model: Text-based Model Induction for Zero-shot Image Classification [38.704831945753284]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。
クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。
本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
論文 参考訳(メタデータ) (2022-10-27T05:19:55Z) - Unifying Vision-and-Language Tasks via Text Generation [81.3910771082967]
一つのアーキテクチャで異なるタスクを学習する統合フレームワークを提案する。
我々のモデルは、視覚的およびテキスト的入力に基づいて、テキストでラベルを生成することを学習する。
我々の生成的アプローチは、稀な答えを持つ質問に答える上で、より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-04T17:59:30Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z) - Quantifying Learnability and Describability of Visual Concepts Emerging
in Representation Learning [91.58529629419135]
我々は、ディープニューラルネットワークによって自動的に発見された視覚的なグルーピングを特徴付ける方法を検討する。
本稿では、任意の画像グループ化の解釈可能性の定量化に使用できる視覚的学習可能性と記述可能性という2つの概念を紹介する。
論文 参考訳(メタデータ) (2020-10-27T18:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。