論文の概要: Where does a computer vision model make mistakes? Using interactive
visualizations to find where and how CV models can improve
- arxiv url: http://arxiv.org/abs/2305.11927v1
- Date: Fri, 19 May 2023 14:43:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 02:04:28.210799
- Title: Where does a computer vision model make mistakes? Using interactive
visualizations to find where and how CV models can improve
- Title(参考訳): コンピュータービジョンモデルはどこでミスをするのか?
インタラクティブなビジュアライゼーションを使ってcvモデルが改善できる場所と方法を見つける
- Authors: Hayeong Song, Gonzalo Ramos, and Peter Bodik
- Abstract要約: ビデオから得られる画像のCV分類と検出モデルを作成するシステムであるSpriteを用いて、2つのインタラクティブな可視化を設計・評価する。
我々は、これらの可視化が、学習ループの一部として、モデルが苦労している場所を識別(評価)し(計画)し、トレーニング対象のモデルを改善するのにどのように役立つかを研究する。
- 参考スコア(独自算出の注目度): 1.0323063834827415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creating Computer Vision (CV) models remains a complex and taxing practice
for end-users to build, inspect, and improve these models. Interactive ML
perspectives have helped address some of these issues by considering a
teacher-in-the-loop where planning, teaching, and evaluating tasks take place.
To improve the experience of end-users with various levels of ML expertise, we
designed and evaluated two interactive visualizations in the context of Sprite,
a system for creating CV classification and detection models for images
originating from videos. We study how these visualizations, as part of the
machine teaching loop, help users identify (evaluate) and select (plan) images
where a model is struggling and improve the model being trained. We found that
users who had used the visualizations found more images across a wider set of
potential types of model errors, as well as in assessing and contrasting the
prediction behavior of one or more models, thus reducing the potential effort
required to improve a model.
- Abstract(参考訳): コンピュータビジョン(CV)モデルの作成は、エンドユーザがこれらのモデルを構築し、検査し、改善するための複雑で課税のプラクティスである。
対話型MLの視点は、計画、教育、評価を行う教師・イン・ザ・ループを考えることで、これらの問題に対処するのに役立っている。
さまざまなレベルのML専門知識を持つエンドユーザの体験を改善するために,ビデオから派生した画像のCV分類と検出モデルを作成するシステムであるSpriteを用いて,インタラクティブな2つの可視化を設計・評価した。
これらの視覚化が,機械教育ループの一部として,モデルを識別(評価)し,モデルが苦労しているイメージを選択(計画)し,トレーニングするモデルを改善する上でどのように役立つかを検討する。
この視覚化を用いていたユーザは、より広いタイプのモデルエラーや、1つ以上のモデルの予測動作の評価とコントラストなどを行い、モデルの改善に必要な潜在的な労力を減らすことができた。
関連論文リスト
- Evaluation and Comparison of Visual Language Models for Transportation Engineering Problems [16.49637074299509]
我々は、視覚に基づく輸送工学タスクのための最先端のビジョン言語モデル(VLM)について検討した。
画像分類作業は渋滞検出と亀裂識別を伴い, 物体検出ではヘルメット違反が同定された。
我々はこれらのVLMモデルの性能を評価するために、CLIP、BLIP、OWL-ViT、Llava-Next、およびクローズソースGPT-4oといったオープンソースモデルを適用した。
論文 参考訳(メタデータ) (2024-09-03T20:24:37Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [99.9389737339175]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - A Vision Check-up for Language Models [61.852026871772914]
テキストのモデルを用いて、予備的な視覚表現学習システムをどのように訓練するかを示す。
自己教師付き視覚表現学習の実験は、自然画像のセマンティックアセスメントを行うことができる視覚モデルを訓練する可能性を強調している。
論文 参考訳(メタデータ) (2024-01-03T18:09:33Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Interactive Visual Feature Search [8.255656003475268]
視覚特徴探索(Visual Feature Search)は,任意のCNNに適応可能な,インタラクティブな可視化技術である。
このツールを使うと、ユーザーは画像領域をハイライトし、最もよく似たモデル機能を持つデータセットから画像を検索できる。
我々は,医療画像や野生生物の分類など,様々な応用実験を行うことで,モデル行動の異なる側面を解明する方法を実証する。
論文 参考訳(メタデータ) (2022-11-28T04:39:03Z) - Impact of Feedback Type on Explanatory Interactive Learning [4.039245878626345]
Explanatory Interactive Learning (XIL)は、Human-in-the-Loop(HITL)ベースの対話型学習シナリオを実装するために、視覚モデルの説明に関するユーザフィードバックを収集する。
画像分類タスクにおける2つの異なるユーザフィードバックタイプの有効性を比較した。
本研究では,モデルに有効な画像特徴にフォーカスするよう指示するユーザフィードバックよりも優れた分類と説明の精度で,モデルが有意な結果を見出すような突発的な画像特徴の識別と注釈を示す。
論文 参考訳(メタデータ) (2022-09-26T07:33:54Z) - Detection and Captioning with Unseen Object Classes [12.894104422808242]
テストイメージには、対応する視覚的またはテキスト的トレーニング例のない視覚的オブジェクトを含むことができる。
一般化されたゼロショット検出モデルとテンプレートに基づく文生成モデルに基づく検出駆動型アプローチを提案する。
実験の結果,提案したゼロショット検出モデルにより,MS-COCOデータセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2021-08-13T10:43:20Z) - Intuitively Assessing ML Model Reliability through Example-Based
Explanations and Editing Model Inputs [19.09848738521126]
解釈可能性メソッドは、機械学習モデルの能力に対する信頼の構築と理解を支援することを目的とする。
モデル信頼性をより直感的に評価するための2つのインターフェースモジュールを紹介します。
論文 参考訳(メタデータ) (2021-02-17T02:41:32Z) - VinVL: Revisiting Visual Representations in Vision-Language Models [96.39332942534368]
画像のオブジェクト中心表現を提供するための改良されたオブジェクト検出モデルを開発した。
新しい視覚機能は、すべての視覚言語(VL)タスクのパフォーマンスを大幅に改善する。
新しいオブジェクト検出モデルを公開します。
論文 参考訳(メタデータ) (2021-01-02T23:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。