論文の概要: Unlocking Open-Set Language Accessibility in Vision Models
- arxiv url: http://arxiv.org/abs/2503.10981v1
- Date: Fri, 14 Mar 2025 01:04:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:36.065338
- Title: Unlocking Open-Set Language Accessibility in Vision Models
- Title(参考訳): 視覚モデルにおけるオープンセット言語アクセシビリティのアンロック
- Authors: Fawaz Sammani, Jonas Fischer, Nikos Deligiannis,
- Abstract要約: オープンセットのテキストクエリでアクセスできるように,任意の視覚分類器を書き換える,シンプルかつ強力な手法を提案する。
我々のアプローチはラベルフリーで効率的であり、基礎となる分類器の分布と推論プロセスを保存する。
1)ラベルのない概念ボトルネックモデルとゼロショットの概念ボトルネックモデルの両方を構築し、従って任意の分類器を本質的に解釈可能なものにし、2)視覚的特徴のゼロショットデコーディングを自然言語に変換する。
- 参考スコア(独自算出の注目度): 26.280572432059085
- License:
- Abstract: Visual classifiers offer high-dimensional feature representations that are challenging to interpret and analyze. Text, in contrast, provides a more expressive and human-friendly interpretable medium for understanding and analyzing model behavior. We propose a simple, yet powerful method for reformulating any visual classifier so that it can be accessed with open-set text queries without compromising its original performance. Our approach is label-free, efficient, and preserves the underlying classifier's distribution and reasoning processes. We thus unlock several text-based interpretability applications for any classifier. We apply our method on 40 visual classifiers and demonstrate two primary applications: 1) building both label-free and zero-shot concept bottleneck models and therefore converting any classifier to be inherently-interpretable and 2) zero-shot decoding of visual features into natural language. In both applications, we achieve state-of-the-art results, greatly outperforming existing works. Our method enables text approaches for interpreting visual classifiers.
- Abstract(参考訳): 視覚分類器は、解釈と解析が難しい高次元の特徴表現を提供する。
対照的にテキストは、モデル行動を理解し解析するための、より表現力があり、人間フレンドリな解釈可能な媒体を提供する。
そこで我々は,任意の視覚的分類器を改良し,その本来の性能を損なうことなく,オープンセットのテキストクエリでアクセスできるようにする,シンプルかつ強力な手法を提案する。
我々のアプローチはラベルフリーで効率的であり、基礎となる分類器の分布と推論プロセスを保存する。
したがって、あらゆる分類器に対してテキストベースの解釈可能性アプリケーションをいくつかアンロックする。
40個の視覚分類器に本手法を適用し,2つの主要な応用例を示す。
1) ラベルフリーおよびゼロショットの概念ボトルネックモデルの構築、したがって、任意の分類器を本質的に解釈可能かつ変換する。
2)視覚的特徴を自然言語にゼロショット復号する。
どちらのアプリケーションでも、最先端の成果が得られ、既存の成果を大きく上回っている。
本手法は,視覚的分類法を解釈するためのテキストアプローチを可能にする。
関連論文リスト
- Evolving Interpretable Visual Classifiers with Large Language Models [34.4903887876357]
CLIPのようなマルチモーダル事前訓練モデルは、オープン語彙の柔軟性と高性能のため、ゼロショット分類に人気がある。
画像とクラスラベルの類似点を計算する視覚言語モデルは、ほとんどブラックボックスであり、解釈可能性の制限、バイアスのリスク、書き下がらない新しい視覚概念の発見ができない。
本稿では,視覚認識のための属性の解釈可能かつ差別的集合を検出する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-15T17:09:53Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。
我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文 参考訳(メタデータ) (2023-08-19T15:48:38Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Text2Model: Text-based Model Induction for Zero-shot Image Classification [38.704831945753284]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。
クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。
本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
論文 参考訳(メタデータ) (2022-10-27T05:19:55Z) - Unifying Vision-and-Language Tasks via Text Generation [81.3910771082967]
一つのアーキテクチャで異なるタスクを学習する統合フレームワークを提案する。
我々のモデルは、視覚的およびテキスト的入力に基づいて、テキストでラベルを生成することを学習する。
我々の生成的アプローチは、稀な答えを持つ質問に答える上で、より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-04T17:59:30Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z) - Quantifying Learnability and Describability of Visual Concepts Emerging
in Representation Learning [91.58529629419135]
我々は、ディープニューラルネットワークによって自動的に発見された視覚的なグルーピングを特徴付ける方法を検討する。
本稿では、任意の画像グループ化の解釈可能性の定量化に使用できる視覚的学習可能性と記述可能性という2つの概念を紹介する。
論文 参考訳(メタデータ) (2020-10-27T18:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。