論文の概要: Language-assisted Vision Model Debugger: A Sample-Free Approach to
Finding Bugs
- arxiv url: http://arxiv.org/abs/2312.05588v1
- Date: Sat, 9 Dec 2023 14:42:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 20:01:57.907729
- Title: Language-assisted Vision Model Debugger: A Sample-Free Approach to
Finding Bugs
- Title(参考訳): 言語支援ビジョンモデルデバッガ: バグ発見のためのサンプルフリーアプローチ
- Authors: Chaoquan Jiang, Jinqiang Wang, Rui Hu, Jitao Sang
- Abstract要約: 本稿では,画像の代わりにテキストを用いて視覚モデルのバグを診断する言語支援診断手法を提案する。
当社のアプローチは,CLIPの埋め込み空間と診断対象のバギービジョンモデルとを結びつける。
我々は、WaterbirdsとCelebAデータセット上の言語を用いて既存の視覚モデルを診断する能力を検証する。
- 参考スコア(独自算出の注目度): 15.975650035943671
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision models with high overall accuracy often exhibit systematic errors in
specific scenarios, posing potential serious safety concerns. Diagnosing bugs
of vision models is gaining increased attention, however traditional diagnostic
approaches require annotation efforts (\eg rich metadata accompanying each
samples of CelebA). To address this issue,We propose a language-assisted
diagnostic method that uses texts instead of images to diagnose bugs in vision
models based on multi-modal models (\eg CLIP). Our approach connects the
embedding space of CLIP with the buggy vision model to be diagnosed; meanwhile,
utilizing a shared classifier and the cross-modal transferability of embedding
space from CLIP, the text-branch of CLIP become a proxy model to find bugs in
the buggy model. The proxy model can classify texts paired with images. During
the diagnosis, a Large Language Model (LLM) is employed to obtain task-relevant
corpora, and this corpora is used to extract keywords. Descriptions constructed
with templates containing these keywords serve as input text to probe errors in
the proxy model. Finally, we validate the ability to diagnose existing visual
models using language on the Waterbirds and CelebA datasets, we can identify
bugs comprehensible to human experts, uncovering not only known bugs but also
previously unknown ones.
- Abstract(参考訳): 総合的精度の高い視覚モデルは、しばしば特定のシナリオにおいて体系的な誤りを示し、深刻な安全上の懸念を生じさせる。
視覚モデルのバグの診断は注目を集めているが、従来の診断アプローチではアノテーション(celebaの各サンプルに付随するリッチなメタデータ)が必要となる。
この問題に対処するために,マルチモーダルモデル (\eg CLIP) に基づく視覚モデルにおけるバグの診断に画像の代わりにテキストを使用する言語支援診断手法を提案する。
提案手法は,CLIPの埋め込み空間と診断対象のバギー視覚モデルとを関連付けるとともに,共有分類器とCLIPからの埋め込み空間のクロスモーダル転送性を利用して,CLIPのテキストブランチがプロキシモデルとなり,バギーモデルにバグを見つける。
プロキシモデルは、画像とペアのテキストを分類することができる。
診断中、タスク関連コーパスを得るために大きな言語モデル(llm)が用いられ、このコーパスはキーワードを抽出するために使用される。
これらのキーワードを含むテンプレートで構築された記述は、プロキシモデルのエラーを調べる入力テキストとして機能する。
最後に、ウォーターバードとセロバデータセット上の言語を使って既存のビジュアルモデルを診断する能力を検証することで、人間の専門家に理解できるバグを識別し、既知のバグだけでなく、これまで知られていないバグも発見する。
関連論文リスト
- Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Scalable Performance Analysis for Vision-Language Models [26.45624201546282]
統合視覚言語モデルは、様々なタスクセットに対して優れたパフォーマンスを示している。
本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。
従来,CLIPは単語の袋のように振る舞い,名詞や動詞でより良く振る舞うことが確認された。
論文 参考訳(メタデータ) (2023-05-30T06:40:08Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Diagnosing and Rectifying Vision Models using Language [31.588965563961573]
最近のコントラスト学習モデルは、強力な視覚分類器を構築するのに適した埋め込み空間を学習できることを実証している。
我々の研究は、このマルチモーダル埋め込み空間の明確な利点として、自然言語で視覚分類器を診断する能力を挙げている。
提案手法は,ハイエラーデータスライスを発見し,重要な属性を同定し,さらに好ましくないモデルの振る舞いを補正する。
論文 参考訳(メタデータ) (2023-02-08T18:59:42Z) - Discovering Bugs in Vision Models using Off-the-shelf Image Generation
and Captioning [25.88974494276895]
この研究は、オフザシェルフ、大規模、画像からテキストへ、そしてテキストから画像へのモデルがどのように活用され、自動的に失敗を見つけるかを示す。
本質的には、条件付きテキスト・ツー・イメージ生成モデルを使用して、大量の合成的かつ現実的な入力を生成する。
論文 参考訳(メタデータ) (2022-08-18T13:49:10Z) - Exploring Multi-Modal Representations for Ambiguity Detection &
Coreference Resolution in the SIMMC 2.0 Challenge [60.616313552585645]
会話型AIにおける効果的なあいまいさ検出と参照解決のためのモデルを提案する。
具体的には,TOD-BERTとLXMERTをベースとしたモデルを用いて,多数のベースラインと比較し,アブレーション実験を行う。
以上の結果から,(1)言語モデルでは曖昧さを検出するためにデータの相関を活用でき,(2)言語モデルではビジョンコンポーネントの必要性を回避できることがわかった。
論文 参考訳(メタデータ) (2022-02-25T12:10:02Z) - Contextual Multi-View Query Learning for Short Text Classification in
User-Generated Data [6.052423212814052]
COCOBAは2つのビューを構築するためにユーザ投稿のコンテキストを利用する。
次に、各ビューにおける表現の分布を使用して、反対のクラスに割り当てられた領域を検出する。
我々のモデルは、通常ノイズの多いユーザ投稿の言語に対処するために、クエリ・バイ・コミッテ・モデルも採用しています。
論文 参考訳(メタデータ) (2021-12-05T16:17:21Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。