論文の概要: Where does a computer vision model make mistakes? Using interactive
visualizations to find where and how CV models can improve
- arxiv url: http://arxiv.org/abs/2305.11927v1
- Date: Fri, 19 May 2023 14:43:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 02:04:28.210799
- Title: Where does a computer vision model make mistakes? Using interactive
visualizations to find where and how CV models can improve
- Title(参考訳): コンピュータービジョンモデルはどこでミスをするのか?
インタラクティブなビジュアライゼーションを使ってcvモデルが改善できる場所と方法を見つける
- Authors: Hayeong Song, Gonzalo Ramos, and Peter Bodik
- Abstract要約: ビデオから得られる画像のCV分類と検出モデルを作成するシステムであるSpriteを用いて、2つのインタラクティブな可視化を設計・評価する。
我々は、これらの可視化が、学習ループの一部として、モデルが苦労している場所を識別(評価)し(計画)し、トレーニング対象のモデルを改善するのにどのように役立つかを研究する。
- 参考スコア(独自算出の注目度): 1.0323063834827415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creating Computer Vision (CV) models remains a complex and taxing practice
for end-users to build, inspect, and improve these models. Interactive ML
perspectives have helped address some of these issues by considering a
teacher-in-the-loop where planning, teaching, and evaluating tasks take place.
To improve the experience of end-users with various levels of ML expertise, we
designed and evaluated two interactive visualizations in the context of Sprite,
a system for creating CV classification and detection models for images
originating from videos. We study how these visualizations, as part of the
machine teaching loop, help users identify (evaluate) and select (plan) images
where a model is struggling and improve the model being trained. We found that
users who had used the visualizations found more images across a wider set of
potential types of model errors, as well as in assessing and contrasting the
prediction behavior of one or more models, thus reducing the potential effort
required to improve a model.
- Abstract(参考訳): コンピュータビジョン(CV)モデルの作成は、エンドユーザがこれらのモデルを構築し、検査し、改善するための複雑で課税のプラクティスである。
対話型MLの視点は、計画、教育、評価を行う教師・イン・ザ・ループを考えることで、これらの問題に対処するのに役立っている。
さまざまなレベルのML専門知識を持つエンドユーザの体験を改善するために,ビデオから派生した画像のCV分類と検出モデルを作成するシステムであるSpriteを用いて,インタラクティブな2つの可視化を設計・評価した。
これらの視覚化が,機械教育ループの一部として,モデルを識別(評価)し,モデルが苦労しているイメージを選択(計画)し,トレーニングするモデルを改善する上でどのように役立つかを検討する。
この視覚化を用いていたユーザは、より広いタイプのモデルエラーや、1つ以上のモデルの予測動作の評価とコントラストなどを行い、モデルの改善に必要な潜在的な労力を減らすことができた。
関連論文リスト
- A Vision Check-up for Language Models [61.852026871772914]
テキストのモデルを用いて、予備的な視覚表現学習システムをどのように訓練するかを示す。
自己教師付き視覚表現学習の実験は、自然画像のセマンティックアセスメントを行うことができる視覚モデルを訓練する可能性を強調している。
論文 参考訳(メタデータ) (2024-01-03T18:09:33Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - InterVLS: Interactive Model Understanding and Improvement with
Vision-Language Surrogates [20.16228906810509]
ディープラーニングモデルは重要なアプリケーションで広く使われており、事前デプロイモデルの理解と改善の必要性を強調している。
視覚的な概念ベースのメソッドは、この目的のためにますます使われてきているが、(1)ほとんどの概念は解釈可能性に欠け、(2)既存のメソッドはモデル知識を必要とし、しばしば実行時に利用できない。
本稿では,テキストに整合した概念を発見し,モデルに依存しない線形サロゲートによる影響を測定することによって,モデル理解を容易にするInterVLSを提案する。
論文 参考訳(メタデータ) (2023-11-06T21:30:59Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Interactive Visual Feature Search [8.255656003475268]
視覚特徴探索(Visual Feature Search)は,任意のCNNに適応可能な,インタラクティブな可視化技術である。
このツールを使うと、ユーザーは画像領域をハイライトし、最もよく似たモデル機能を持つデータセットから画像を検索できる。
我々は,医療画像や野生生物の分類など,様々な応用実験を行うことで,モデル行動の異なる側面を解明する方法を実証する。
論文 参考訳(メタデータ) (2022-11-28T04:39:03Z) - Distill on the Go: Online knowledge distillation in self-supervised
learning [1.1470070927586016]
最近の研究では、より広範でより深いモデルは、小さなモデルよりも自己監督学習の恩恵を受けることが示されている。
単段階オンライン知識蒸留を用いた自己指導型学習パラダイムであるDistill-on-the-Go(DoGo)を提案する。
以上の結果から,ノイズラベルや限定ラベルの存在下でのパフォーマンス向上がみられた。
論文 参考訳(メタデータ) (2021-04-20T09:59:23Z) - VinVL: Revisiting Visual Representations in Vision-Language Models [96.39332942534368]
画像のオブジェクト中心表現を提供するための改良されたオブジェクト検出モデルを開発した。
新しい視覚機能は、すべての視覚言語(VL)タスクのパフォーマンスを大幅に改善する。
新しいオブジェクト検出モデルを公開します。
論文 参考訳(メタデータ) (2021-01-02T23:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。