論文の概要: VIS30K: A Collection of Figures and Tables from IEEE Visualization
Conference Publications
- arxiv url: http://arxiv.org/abs/2101.01036v3
- Date: Mon, 11 Jan 2021 11:50:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 10:34:00.830247
- Title: VIS30K: A Collection of Figures and Tables from IEEE Visualization
Conference Publications
- Title(参考訳): VIS30K:IEEE Visualization Conferenceの図表と表のコレクション
- Authors: Jian Chen and Meng Ling and Rui Li and Petra Isenberg and Tobias
Isenberg and Michael Sedlmair and Torsten M\"oller and Robert S. Laramee and
Han-Wei Shen and Katharina W\"unsche and Qiru Wang
- Abstract要約: VIS30Kは、IEEE Visualization Conferenceシリーズの各トラックから30年の数字と表を表す29,689枚の画像のコレクションです。
本稿では,畳み込みニューラルネットワーク(CNN)とキュレーションを結合したデータセットと半自動収集プロセスについて述べる。
その結果、VISImageNavigator(VIN、visimagenavigator.io)は、著者名、論文キーワード、タイトルと抽象、および年によってVIS30Kの検索と探索を容易にするWebベースのツールです。
- 参考スコア(独自算出の注目度): 30.650469642953645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the VIS30K dataset, a collection of 29,689 images that represents
30 years of figures and tables from each track of the IEEE Visualization
conference series (Vis, SciVis, InfoVis, VAST). VIS30K's comprehensive coverage
of the scientific literature in visualization not only reflects the progress of
the field but also enables researchers to study the evolution of the
state-of-the-art and to find relevant work based on graphical content. We
describe the dataset and our semi-automatic collection process, which couples
convolutional neural networks (CNN) with curation. Extracting figures and
tables semi-automatically allows us to verify that no images are overlooked or
extracted erroneously. To improve quality further, we engaged in a peer-search
process for high-quality figures from early IEEE Visualization papers. With the
resulting data, we also contribute VISImageNavigator (VIN,
visimagenavigator.github.io), a web-based tool that facilitates searching and
exploring VIS30K by author names, paper keywords, title and abstract, and
years.
- Abstract(参考訳): IEEE Visualization Conferenceシリーズ(Vis, SciVis, InfoVis, VAST)の各トラックから30年分の数字とテーブルを表現した29,689枚のVIS30Kデータセットを提示する。
VIS30Kの可視化における科学文献の包括的カバレッジは、分野の進歩を反映するだけでなく、研究者が最先端の進化を研究し、グラフィカルコンテンツに基づいて関連する仕事を見つけることを可能にする。
本稿では,畳み込みニューラルネットワーク(CNN)とキュレーションを組み合わせたデータセットと半自動収集プロセスについて述べる。
図と表を半自動で抽出することで、画像が見過ごされ、誤って抽出されることを検証できます。
品質をさらに向上するため、初期のieeeビジュアライゼーション論文から高品質な数値をピア検索するプロセスに取り組みました。
また, 著者名, 論文キーワード, タイトルと要約によるVIS30Kの探索と探索を容易にするウェブベースのツールであるVISImageNavigator (VIN, visimagenavigator.github.io) を寄贈した。
関連論文リスト
- Visual Navigation of Digital Libraries: Retrieval and Classification of Images in the National Library of Norway's Digitised Book Collection [0.3277163122167433]
本稿では,1900年以前のノルウェー国立図書館における画像探索のための概念実証画像検索アプリケーションについて紹介する。
画像検索と分類のために、視覚変換器(ViT)、コントラスト言語画像事前学習(CLIP)、言語画像事前学習(SigLIP)のSigmoid損失を比較した。
論文 参考訳(メタデータ) (2024-10-19T04:20:23Z) - See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - SeeBel: Seeing is Believing [0.9790236766474201]
本稿では,全画像のセグメンテーションにおけるデータセット統計とAI性能を比較するための3つの可視化手法を提案する。
我々のプロジェクトは、画像の注意重みを可視化することで、セグメンテーションのための訓練されたAIモデルの解釈可能性をさらに高めようとしている。
我々は,コンピュータビジョンとAI領域における可視化ツールの有効性を検討するために,実際のユーザを対象に調査を行うことを提案する。
論文 参考訳(メタデータ) (2023-12-18T05:11:00Z) - Blind Dates: Examining the Expression of Temporality in Historical
Photographs [57.07335632641355]
マルチモーダル言語とビジョンモデルであるCLIPのオープンソース実装であるOpenCLIPを用いて、画像の日付を調査する。
我々は1950年から1999年までの39,866枚のグレースケールの歴史的プレス写真を含むtextitDe Boer Scene Detectionデータセットを使用している。
解析の結果、バス、車、猫、犬、そして人々が写っている画像はより正確に年代付けされており、時間的マーカーの存在が示唆されている。
論文 参考訳(メタデータ) (2023-10-10T13:51:24Z) - Line Graphics Digitization: A Step Towards Full Automation [29.017383766914406]
5つの粗いカテゴリと10の細かいカテゴリのピクセルワイズアノテーションを含むLine Graphics (LG)データセットを提示する。
我々のデータセットは、異なる分野から450の文書から収集された数学図形の520の画像を網羅している。
提案するデータセットは、セマンティックセグメンテーションとオブジェクト検出という、2つの異なるコンピュータビジョンタスクをサポートすることができる。
論文 参考訳(メタデータ) (2023-07-05T07:08:58Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - Neural Content Extraction for Poster Generation of Scientific Papers [84.30128728027375]
科学論文のポスター生成の問題は未解明である。
これまでの研究は主にポスターレイアウトとパネル構成に重点を置いていたが、コンテンツ抽出の重要性は無視された。
ポスターパネルのテキスト要素と視覚要素の両方を得るために,紙セクションのテキスト,図形,テーブルを同時に抽出するニューラル抽出モデルを提案する。
論文 参考訳(メタデータ) (2021-12-16T01:19:37Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - VisImages: A Fine-Grained Expert-Annotated Visualization Dataset [27.88593160215692]
IEEE InfoVisとVASTの1,397の論文のキャプションで12,267の画像を収集するデータセットVisImagesを構築し、公開します。
包括的な視覚化分類に基づいて構築されたデータセットには、画像内の35,096の可視化とそれらの境界ボックスが含まれている。
論文 参考訳(メタデータ) (2020-07-09T06:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。