Fugu-MT 論文翻訳(概要): VisImages: A Fine-Grained Expert-Annotated Visualization Dataset

論文の概要: VisImages: A Fine-Grained Expert-Annotated Visualization Dataset

arxiv url: http://arxiv.org/abs/2007.04584v5
Date: Sun, 6 Mar 2022 13:02:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-12 04:34:26.488192
Title: VisImages: A Fine-Grained Expert-Annotated Visualization Dataset
Title（参考訳）: VisImages: エキスパートによる注釈付きビジュアライゼーションデータセット
Authors: Dazhen Deng, Yihong Wu, Xinhuan Shu, Jiang Wu, Siwei Fu, Weiwei Cui, Yingcai Wu
Abstract要約: IEEE InfoVisとVASTの1,397の論文のキャプションで12,267の画像を収集するデータセットVisImagesを構築し、公開します。包括的な視覚化分類に基づいて構築されたデータセットには、画像内の35,096の可視化とそれらの境界ボックスが含まれている。
参考スコア（独自算出の注目度）: 27.88593160215692
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Images in visualization publications contain rich information, e.g., novel visualization designs and implicit design patterns of visualizations. A systematic collection of these images can contribute to the community in many aspects, such as literature analysis and automated tasks for visualization. In this paper, we build and make public a dataset, VisImages, which collects 12,267 images with captions from 1,397 papers in IEEE InfoVis and VAST. Built upon a comprehensive visualization taxonomy, the dataset includes 35,096 visualizations and their bounding boxes in the images.We demonstrate the usefulness of VisImages through three use cases: 1) investigating the use of visualizations in the publications with VisImages Explorer, 2) training and benchmarking models for visualization classification, and 3) localizing visualizations in the visual analytics systems automatically.
Abstract（参考訳）: 可視化出版物のイメージには、新しい可視化デザインや暗黙のデザインパターンなど、リッチな情報が含まれている。これらの画像の体系的な収集は、文献分析や可視化のための自動化タスクなど、多くの面でコミュニティに貢献することができる。本稿では,IEEE InfoVis と VAST の 1,397 枚の論文から 12,267 枚の画像を集めて,データセット VisImages を構築し,公開する。総合的な視覚化分類に基づいて構築されたデータセットは、画像中の35,096の可視化と、その境界ボックスを含む。 1)visimages explorerによる出版物における可視化の利用調査 2)可視化分類のためのトレーニングとベンチマークモデル 3)ビジュアル分析システムにおける可視化の自動ローカライズ。

関連論文リスト

Granite Vision: a lightweight, open-source multimodal model for enterprise Intelligence [88.74800617923083]
視覚機能を備えた軽量な大規模言語モデルであるGranite Visionを紹介した。我々のモデルは、包括的な命令追従データセットに基づいて訓練されている。 Granite Visionは、ビジュアル文書理解に関連する標準ベンチマークで強力な結果を得る。
論文参考訳（メタデータ） (2025-02-14T05:36:32Z)
MMDocBench: Benchmarking Large Vision-Language Models for Fine-Grained Visual Document Understanding [66.23502779435053]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を発揮している。既存のベンチマークには、他のデータと混合された詳細な評価サンプルが限られているか、あるいは自然画像のオブジェクトレベルの評価に限られている。自然画像の補足に多粒度および多モード情報を用いた文書画像を提案する。
論文参考訳（メタデータ） (2024-10-25T16:00:55Z)
AEye: A Visualization Tool for Image Datasets [18.95453617434051]
AEyeは、画像データセットに適した意味的に意味のある視覚化ツールである。 AEyeはイメージを意味的に意味のある高次元表現に埋め込み、データのクラスタリングと組織化を容易にする。 AEyeはテキストと画像クエリの両方のセマンティック検索機能を容易にし、ユーザーはコンテンツを検索できる。
論文参考訳（メタデータ） (2024-08-07T20:19:20Z)
Freeview Sketching: View-Aware Fine-Grained Sketch-Based Image Retrieval [85.73149096516543]
微細スケッチベース画像検索(FG-SBIR)におけるスケッチ作成時の視点選択について検討する。パイロットスタディでは、クエリスケッチがターゲットインスタンスと異なる場合、システムの苦労を強調している。これを解決するために、ビューに依存しないタスクとビュー固有のタスクの両方をシームレスに収容するビューアウェアシステムを提案する。
論文参考訳（メタデータ） (2024-07-01T21:20:44Z)
An Image-based Typology for Visualization [23.716718517642878]
本稿では,画像からの視覚表現の質的解析結果について述べる。定義群を10種類に分類した。我々は、6,833枚のタグ付き画像のデータセットと、ラベル付き画像の大規模な集合を探索および分析するために使用できるオンラインツールを提供する。
論文参考訳（メタデータ） (2024-03-07T04:33:42Z)
SeeBel: Seeing is Believing [0.9790236766474201]
本稿では,全画像のセグメンテーションにおけるデータセット統計とAI性能を比較するための3つの可視化手法を提案する。我々のプロジェクトは、画像の注意重みを可視化することで、セグメンテーションのための訓練されたAIモデルの解釈可能性をさらに高めようとしている。我々は,コンピュータビジョンとAI領域における可視化ツールの有効性を検討するために,実際のユーザを対象に調査を行うことを提案する。
論文参考訳（メタデータ） (2023-12-18T05:11:00Z)
Visual Analytics for Efficient Image Exploration and User-Guided Image Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文参考訳（メタデータ） (2023-11-02T06:21:35Z)
InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。 InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文参考訳（メタデータ） (2023-09-30T14:26:43Z)
Cross-view Graph Contrastive Representation Learning on Partially Aligned Multi-view Data [52.491074276133325]
マルチビュー表現学習は、過去数十年間で急速に発展し、多くの分野に応用されてきた。本稿では,多視点情報を統合してデータアライメントを行い,潜在表現を学習する,新しいクロスビューグラフコントラスト学習フレームワークを提案する。複数の実データを用いて実験を行い,クラスタリングおよび分類作業における提案手法の有効性を示した。
論文参考訳（メタデータ） (2022-11-08T09:19:32Z)
Matching Visual Features to Hierarchical Semantic Topics for Image Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文参考訳（メタデータ） (2021-05-10T06:55:39Z)
VIS30K: A Collection of Figures and Tables from IEEE Visualization Conference Publications [30.650469642953645]
VIS30Kは、IEEE Visualization Conferenceシリーズの各トラックから30年の数字と表を表す29,689枚の画像のコレクションです。本稿では,畳み込みニューラルネットワーク(CNN)とキュレーションを結合したデータセットと半自動収集プロセスについて述べる。その結果、VISImageNavigator(VIN、visimagenavigator.io)は、著者名、論文キーワード、タイトルと抽象、および年によってVIS30Kの検索と探索を容易にするWebベースのツールです。
論文参考訳（メタデータ） (2020-12-22T19:56:29Z)
Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文参考訳（メタデータ） (2020-06-21T14:10:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。