論文の概要: Towards Automatic Parsing of Structured Visual Content through the Use
of Synthetic Data
- arxiv url: http://arxiv.org/abs/2204.14136v1
- Date: Fri, 29 Apr 2022 14:44:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-02 20:39:05.412486
- Title: Towards Automatic Parsing of Structured Visual Content through the Use
of Synthetic Data
- Title(参考訳): 合成データを用いた構造化視覚コンテンツの自動解析に向けて
- Authors: Lukas Scholch, Jonas Steinhauser, Maximilian Beichter, Constantin
Seibold, Kailun Yang, Merlin Kn\"able, Thorsten Schwarz, Alexander M\"adche,
and Rainer Stiefelhagen
- Abstract要約: 本研究では,構造化ビジュアルコンテンツ(Structured Visual Content, SVC)を画像と地上の真実の形で含む合成データセットを提案する。
本稿では、SVC画像からグラフ表現を自動的に抽出するアプリケーションによる、このデータセットの使用例を示す。
我々のデータセットは、時間を要する高密度データアノテーションをスキップしながら、SVCの解釈のための強力なモデルの開発を可能にする。
- 参考スコア(独自算出の注目度): 65.68384124394699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured Visual Content (SVC) such as graphs, flow charts, or the like are
used by authors to illustrate various concepts. While such depictions allow the
average reader to better understand the contents, images containing SVCs are
typically not machine-readable. This, in turn, not only hinders automated
knowledge aggregation, but also the perception of displayed in-formation for
visually impaired people. In this work, we propose a synthetic dataset,
containing SVCs in the form of images as well as ground truths. We show the
usage of this dataset by an application that automatically extracts a graph
representation from an SVC image. This is done by training a model via common
supervised learning methods. As there currently exist no large-scale public
datasets for the detailed analysis of SVC, we propose the Synthetic SVC (SSVC)
dataset comprising 12,000 images with respective bounding box annotations and
detailed graph representations. Our dataset enables the development of strong
models for the interpretation of SVCs while skipping the time-consuming dense
data annotation. We evaluate our model on both synthetic and manually annotated
data and show the transferability of synthetic to real via various metrics,
given the presented application. Here, we evaluate that this proof of concept
is possible to some extend and lay down a solid baseline for this task. We
discuss the limitations of our approach for further improvements. Our utilized
metrics can be used as a tool for future comparisons in this domain. To enable
further research on this task, the dataset is publicly available at
https://bit.ly/3jN1pJJ
- Abstract(参考訳): グラフやフローチャートなどの構造化ビジュアルコンテンツ(SVC)は、著者によって様々な概念を説明するために使用される。
このような描写により、平均的な読者は内容をよりよく理解することができるが、SVCを含む画像は通常、機械で読めない。
これにより、自動的な知識集約が妨げられるだけでなく、視覚障害者のためのインフォームの認識も妨げられる。
本研究では,画像の形でのSVCと地上の真実を含む合成データセットを提案する。
svc画像からグラフ表現を自動的に抽出するアプリケーションによって、このデータセットの使用例を示す。
これは、共通の教師付き学習方法でモデルをトレーニングすることで実現される。
現在、SVCの詳細な分析のための大規模な公開データセットは存在しないため、各境界ボックスアノテーションと詳細なグラフ表現を備えた12,000の画像からなるSynthetic SVC(SSVC)データセットを提案する。
我々のデータセットは、時間を要する高密度データアノテーションをスキップしながら、SVCの解釈のための強力なモデルの開発を可能にする。
本稿では, 合成データと手動アノテーションデータの両方を用いたモデルの評価を行い, 提案した応用から, 合成データから実データへの変換可能性を示す。
ここでは、この概念の証明がある程度拡張可能であり、この課題の確固たるベースラインを定めていると評価する。
さらなる改善に向けたアプローチの限界について論じる。
私たちの利用したメトリクスは、このドメインにおける将来の比較のためのツールとして使用できます。
このタスクに関するさらなる研究を可能にするため、データセットはhttps://bit.ly/3jN1pJJで公開されている。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - Learnable Graph Matching: A Practical Paradigm for Data Association [74.28753343714858]
これらの問題に対処するための一般的な学習可能なグラフマッチング法を提案する。
提案手法は,複数のMOTデータセット上での最先端性能を実現する。
画像マッチングでは,一般的な屋内データセットであるScanNetで最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-03-27T17:39:00Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Explaining Deep Convolutional Neural Networks via Latent Visual-Semantic
Filter Attention [7.237370981736913]
本稿では,既存の畳み込みニューラルネットワークを用いて,フィルタレベルでの潜在表現に関するテキスト記述を生成するフレームワークを提案する。
本手法は,学習データセットに定義されたカテゴリの組を超えて,学習したフィルタの新たな記述を生成することができることを示す。
また、教師なしデータセットバイアス分析のための新しい手法の応用を実証する。
論文 参考訳(メタデータ) (2022-04-10T04:57:56Z) - Beyond Accuracy: A Consolidated Tool for Visual Question Answering
Benchmarking [30.155625852894797]
研究者や主催者を対象としたブラウザベースのベンチマークツールを提案する。
私たちのツールは、複数のデータセットにわたるモデルの一般化機能をテストするのに役立ちます。
対話的フィルタリングは問題のある振る舞いの発見を促進する。
論文 参考訳(メタデータ) (2021-10-11T11:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。