論文の概要: VisImages: A Fine-Grained Expert-Annotated Visualization Dataset
- arxiv url: http://arxiv.org/abs/2007.04584v5
- Date: Sun, 6 Mar 2022 13:02:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 04:34:26.488192
- Title: VisImages: A Fine-Grained Expert-Annotated Visualization Dataset
- Title(参考訳): VisImages: エキスパートによる注釈付きビジュアライゼーションデータセット
- Authors: Dazhen Deng, Yihong Wu, Xinhuan Shu, Jiang Wu, Siwei Fu, Weiwei Cui,
Yingcai Wu
- Abstract要約: IEEE InfoVisとVASTの1,397の論文のキャプションで12,267の画像を収集するデータセットVisImagesを構築し、公開します。
包括的な視覚化分類に基づいて構築されたデータセットには、画像内の35,096の可視化とそれらの境界ボックスが含まれている。
- 参考スコア(独自算出の注目度): 27.88593160215692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Images in visualization publications contain rich information, e.g., novel
visualization designs and implicit design patterns of visualizations. A
systematic collection of these images can contribute to the community in many
aspects, such as literature analysis and automated tasks for visualization. In
this paper, we build and make public a dataset, VisImages, which collects
12,267 images with captions from 1,397 papers in IEEE InfoVis and VAST. Built
upon a comprehensive visualization taxonomy, the dataset includes 35,096
visualizations and their bounding boxes in the images.We demonstrate the
usefulness of VisImages through three use cases: 1) investigating the use of
visualizations in the publications with VisImages Explorer, 2) training and
benchmarking models for visualization classification, and 3) localizing
visualizations in the visual analytics systems automatically.
- Abstract(参考訳): 可視化出版物のイメージには、新しい可視化デザインや暗黙のデザインパターンなど、リッチな情報が含まれている。
これらの画像の体系的な収集は、文献分析や可視化のための自動化タスクなど、多くの面でコミュニティに貢献することができる。
本稿では,IEEE InfoVis と VAST の 1,397 枚の論文から 12,267 枚の画像を集めて,データセット VisImages を構築し,公開する。
総合的な視覚化分類に基づいて構築されたデータセットは、画像中の35,096の可視化と、その境界ボックスを含む。
1)visimages explorerによる出版物における可視化の利用調査
2)可視化分類のためのトレーニングとベンチマークモデル
3)ビジュアル分析システムにおける可視化の自動ローカライズ。
関連論文リスト
- An Image-based Typology for Visualization [24.906010459057125]
本稿では,画像からの視覚表現の質的解析結果について述べる。
定義群を10種類に分類した。
我々は、6,833枚のタグ付き画像のデータセットと、ラベル付き画像の大規模な集合を探索および分析するために使用できるオンラインツールを提供する。
論文 参考訳(メタデータ) (2024-03-07T04:33:42Z) - SeeBel: Seeing is Believing [0.9790236766474201]
本稿では,全画像のセグメンテーションにおけるデータセット統計とAI性能を比較するための3つの可視化手法を提案する。
我々のプロジェクトは、画像の注意重みを可視化することで、セグメンテーションのための訓練されたAIモデルの解釈可能性をさらに高めようとしている。
我々は,コンピュータビジョンとAI領域における可視化ツールの有効性を検討するために,実際のユーザを対象に調査を行うことを提案する。
論文 参考訳(メタデータ) (2023-12-18T05:11:00Z) - Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - Cross-view Graph Contrastive Representation Learning on Partially
Aligned Multi-view Data [52.491074276133325]
マルチビュー表現学習は、過去数十年間で急速に発展し、多くの分野に応用されてきた。
本稿では,多視点情報を統合してデータアライメントを行い,潜在表現を学習する,新しいクロスビューグラフコントラスト学習フレームワークを提案する。
複数の実データを用いて実験を行い,クラスタリングおよび分類作業における提案手法の有効性を示した。
論文 参考訳(メタデータ) (2022-11-08T09:19:32Z) - VizWiz-FewShot: Locating Objects in Images Taken by People With Visual
Impairments [74.72656607288185]
我々は、撮影した画像の視覚的内容について真に学ぼうとしていた写真家を起源とする、数発のローカライゼーションデータセットを紹介した。
視覚障害者が撮影した4500枚以上の画像に、100のカテゴリの約10,000のセグメンテーションが含まれている。
既存の数発のオブジェクト検出やインスタンスセグメンテーションデータセットと比較して、私たちのデータセットは、オブジェクトの穴を見つける最初のものです。
論文 参考訳(メタデータ) (2022-07-24T20:44:51Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - VIS30K: A Collection of Figures and Tables from IEEE Visualization
Conference Publications [30.650469642953645]
VIS30Kは、IEEE Visualization Conferenceシリーズの各トラックから30年の数字と表を表す29,689枚の画像のコレクションです。
本稿では,畳み込みニューラルネットワーク(CNN)とキュレーションを結合したデータセットと半自動収集プロセスについて述べる。
その結果、VISImageNavigator(VIN、visimagenavigator.io)は、著者名、論文キーワード、タイトルと抽象、および年によってVIS30Kの検索と探索を容易にするWebベースのツールです。
論文 参考訳(メタデータ) (2020-12-22T19:56:29Z) - Graphical Object Detection in Document Images [30.48863304419383]
文書画像中のグラフィカルオブジェクトをローカライズする「グラフィカルオブジェクト検出(Graphical Object Detection, GOD)」という、エンドツーエンドのトレーニング可能なディープラーニングベースのフレームワークを提案する。
我々のフレームワークはデータ駆動であり、文書画像内のグラフィカルなオブジェクトを見つけるのにメタデータを一切必要としない。
我々のモデルは最先端技術と比較して有望な結果をもたらす。
論文 参考訳(メタデータ) (2020-08-25T06:35:57Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。