論文の概要: SeeBel: Seeing is Believing
- arxiv url: http://arxiv.org/abs/2312.10933v1
- Date: Mon, 18 Dec 2023 05:11:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 21:13:59.896761
- Title: SeeBel: Seeing is Believing
- Title(参考訳): SeeBel: 見ることは信じられない
- Authors: Sourajit Saha, Shubhashis Roy Dipta
- Abstract要約: 本稿では,全画像のセグメンテーションにおけるデータセット統計とAI性能を比較するための3つの可視化手法を提案する。
我々のプロジェクトは、画像の注意重みを可視化することで、セグメンテーションのための訓練されたAIモデルの解釈可能性をさらに高めようとしている。
我々は,コンピュータビジョンとAI領域における可視化ツールの有効性を検討するために,実際のユーザを対象に調査を行うことを提案する。
- 参考スコア(独自算出の注目度): 0.9790236766474201
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic Segmentation is a significant research field in Computer Vision.
Despite being a widely studied subject area, many visualization tools do not
exist that capture segmentation quality and dataset statistics such as a class
imbalance in the same view. While the significance of discovering and
introspecting the correlation between dataset statistics and AI model
performance for dense prediction computer vision tasks such as semantic
segmentation is well established in the computer vision literature, to the best
of our knowledge, no visualization tools have been proposed to view and analyze
the aforementioned tasks. Our project aims to bridge this gap by proposing
three visualizations that enable users to compare dataset statistics and AI
performance for segmenting all images, a single image in the dataset, explore
the AI model's attention on image regions once trained and browse the quality
of masks predicted by AI for any selected (by user) number of objects under the
same tool. Our project tries to further increase the interpretability of the
trained AI model for segmentation by visualizing its image attention weights.
For visualization, we use Scatterplot and Heatmap to encode correlation and
features, respectively. We further propose to conduct surveys on real users to
study the efficacy of our visualization tool in computer vision and AI domain.
The full system can be accessed at https://github.com/dipta007/SeeBel
- Abstract(参考訳): セマンティックセグメンテーションはコンピュータビジョンにおいて重要な研究分野である。
広く研究されている分野であるにもかかわらず、セグメンテーションの品質と、同じ視点でクラス不均衡のようなデータセット統計をキャプチャする多くの可視化ツールは存在しない。
セマンティックセグメンテーション(セマンティックセグメンテーション)のような高密度なコンピュータビジョンタスクに対するデータセット統計とAIモデル性能の相関関係の発見とイントロスペクションの意義はコンピュータビジョン文学においてよく確立されているが、上記のタスクを閲覧・分析するための可視化ツールが提案されていない。
私たちのプロジェクトは、データセットの統計と、データセット内の1つのイメージをセグメンテーションするためのaiのパフォーマンスを比較する3つの視覚化を提案して、aiがトレーニングした画像領域に対するaiモデルの注意を探索し、同じツールの下で選択された(ユーザによる)オブジェクト数に対してaiが予測するマスクの品質を閲覧することで、このギャップを埋めることを目的としています。
我々のプロジェクトは、画像の注意重みを可視化することで、セグメンテーションのための訓練されたAIモデルの解釈可能性をさらに高めようとしている。
可視化には、相関と特徴をエンコードするためにscatterplotとheatmapを使用します。
さらに,コンピュータビジョンとai領域における可視化ツールの有効性を検討するために,実ユーザに対する調査を行うことを提案する。
完全なシステムはhttps://github.com/dipta007/SeeBelでアクセスできる。
関連論文リスト
- Pushing Boundaries: Exploring Zero Shot Object Classification with Large
Multimodal Models [0.09264362806173355]
LLVA(Large Language and Vision Assistant Model)は、画像ベースのクエリと連動したリッチな会話体験をユーザに提供するモデルである。
本稿では,LMMについて一意に考察し,画像分類タスクの適応性について検討する。
我々の研究では、MNIST、Cats Vs. Dogs、Hymnoptera(Ants Vs. Bees)、Pox Vs. Non-Poxの皮膚画像からなる非伝統的なデータセットの4つの多様なデータセットのベンチマーク分析を含む。
論文 参考訳(メタデータ) (2023-12-30T03:19:54Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - A large scale multi-view RGBD visual affordance learning dataset [4.3773754388936625]
大規模マルチビューRGBDビジュアルアプライアンス学習データセットを提案する。
これは、初めてかつ最大のマルチビューRGBDビジュアルアプライアンス学習データセットである。
いくつかの最先端のディープラーニングネットワークを,それぞれが可視性認識とセグメンテーションタスクのために評価する。
論文 参考訳(メタデータ) (2022-03-26T14:31:35Z) - VizAI : Selecting Accurate Visualizations of Numerical Data [2.6039035727217907]
VizAIは、データの様々な統計特性を最初に生成する生成的識別フレームワークである。
これは、視覚化されるデータの真の統計に最もよく一致する視覚化を選択する識別モデルにリンクされている。
VizAIは、最小限の監督で容易に訓練でき、様々な監督レベルの設定に適応できる。
論文 参考訳(メタデータ) (2021-11-07T22:05:44Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Image Segmentation Using Deep Learning: A Survey [58.37211170954998]
イメージセグメンテーションは、画像処理とコンピュータビジョンにおいて重要なトピックである。
深層学習モデルを用いた画像セグメンテーション手法の開発を目的とした研究が,これまでに数多く行われている。
論文 参考訳(メタデータ) (2020-01-15T21:37:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。