論文の概要: Comics Datasets Framework: Mix of Comics datasets for detection benchmarking
- arxiv url: http://arxiv.org/abs/2407.03540v1
- Date: Wed, 3 Jul 2024 23:07:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 19:41:16.673803
- Title: Comics Datasets Framework: Mix of Comics datasets for detection benchmarking
- Title(参考訳): Comics Datasets Framework:ベンチマーク検出のためのComicsデータセットの混合
- Authors: Emanuele Vivoli, Irene Campaioli, Mariateresa Nardoni, Niccolò Biondi, Marco Bertini, Dimosthenis Karatzas,
- Abstract要約: メディアとしてのコミックは、しばしば現実の視覚と異なるスタイルでテキストとイメージを独自に組み合わせている。
漫画の計算研究は、基本的な物体検出から、より洗練されたタスクへと進化してきた。
我々は、データセット間でアノテーションを標準化し、さまざまなコミックスタイルをデータセットに導入し、明確でレプリケート可能な設定でベンチマーク結果を確立することを目指している。
- 参考スコア(独自算出の注目度): 11.457653763760792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comics, as a medium, uniquely combine text and images in styles often distinct from real-world visuals. For the past three decades, computational research on comics has evolved from basic object detection to more sophisticated tasks. However, the field faces persistent challenges such as small datasets, inconsistent annotations, inaccessible model weights, and results that cannot be directly compared due to varying train/test splits and metrics. To address these issues, we aim to standardize annotations across datasets, introduce a variety of comic styles into the datasets, and establish benchmark results with clear, replicable settings. Our proposed Comics Datasets Framework standardizes dataset annotations into a common format and addresses the overrepresentation of manga by introducing Comics100, a curated collection of 100 books from the Digital Comics Museum, annotated for detection in our uniform format. We have benchmarked a variety of detection architectures using the Comics Datasets Framework. All related code, model weights, and detailed evaluation processes are available at https://github.com/emanuelevivoli/cdf, ensuring transparency and facilitating replication. This initiative is a significant advancement towards improving object detection in comics, laying the groundwork for more complex computational tasks dependent on precise object recognition.
- Abstract(参考訳): コミックはメディアとして、現実の視覚と異なるスタイルのテキストとイメージを独自に組み合わせている。
過去30年間、コミックの計算研究は、基本的な物体検出からより洗練されたタスクへと進化してきた。
しかしながら、フィールドは、小さなデータセット、一貫性のないアノテーション、アクセシブルモデルウェイト、および様々なトレイン/テストの分割とメトリクスのために直接比較できない結果といった永続的な課題に直面しています。
これらの問題に対処するため、データセット間でアノテーションを標準化し、データセットにさまざまなコミックスタイルを導入し、明確でレプリケート可能な設定でベンチマーク結果を確立することを目的としている。
提案するComics Datasets Frameworkは,データセットアノテーションを共通フォーマットに標準化し,デジタルコミックミュージアムの100冊のキュレートされたコレクションであるComics100を導入することで,マンガの過剰表現に対処する。
Comics Datasets Frameworkを使って、さまざまな検出アーキテクチャをベンチマークしました。
関連するコード、モデルウェイト、詳細な評価プロセスはすべてhttps://github.com/emanuelevivoli/cdfで公開されており、透明性を確保し、レプリケーションを容易にする。
このイニシアチブは、コミックのオブジェクト検出を改善するための重要な進歩であり、より複雑な計算タスクの基盤を正確なオブジェクト認識に依存している。
関連論文リスト
- One missing piece in Vision and Language: A Survey on Comics Understanding [13.766672321462435]
この調査は、コミックインテリジェンスのためのタスク指向フレームワークを提案する最初のものである。
データ可用性とタスク定義における重要なギャップに対処することで、将来の研究を導くことを目的としている。
論文 参考訳(メタデータ) (2024-09-14T18:26:26Z) - Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - CoMix: A Comprehensive Benchmark for Multi-Task Comic Understanding [14.22900011952181]
我々は,コミック分析におけるモデルのマルチタスク能力を評価するために,新しいベンチマークであるCoMixを導入する。
本ベンチマークは,マルチタスク評価をサポートするアノテーションを拡張した既存の3つのデータセットからなる。
マンガスタイルのデータの過剰表現を緩和するために、慎重に選択されたアメリカの漫画スタイルの本を新たにデータセットとして組み込んだ。
論文 参考訳(メタデータ) (2024-07-04T00:07:50Z) - Multimodal Transformer for Comics Text-Cloze [8.616858272810084]
テキストクローズ(Text-cloze)とは、隣接するパネルから漫画パネルで使用する正しいテキストを選択するタスクである。
リカレントニューラルネットワークに基づく従来の手法は、OCR精度の制限と固有のモデル制限のために、このタスクに苦労してきた。
テキストクローズに特化して設計された新しいマルチモーダル大規模言語モデル(Multimodal-LLM)を導入する。
論文 参考訳(メタデータ) (2024-03-06T14:11:45Z) - Dense Multitask Learning to Reconfigure Comics [63.367664789203936]
漫画パネルの密集予測を実現するために,MultiTask Learning (MTL) モデルを開発した。
本手法は,漫画パネルにおける意味単位と3D概念の同定に有効である。
論文 参考訳(メタデータ) (2023-07-16T15:10:34Z) - Manga109Dialog: A Large-scale Dialogue Dataset for Comics Speaker Detection [37.083051419659135]
Manga109Dialogは世界最大の漫画話者データセットデータセットであり、132,692対の話者対を含む。
距離に基づく既存手法とは異なり,シーングラフ生成モデルを用いた深層学習手法を提案する。
実験の結果,シーングラフによるアプローチは既存の手法よりも優れており,予測精度は75%以上であることがわかった。
論文 参考訳(メタデータ) (2023-06-30T08:34:08Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Learning 3D Human Pose Estimation from Dozens of Datasets using a
Geometry-Aware Autoencoder to Bridge Between Skeleton Formats [80.12253291709673]
本稿では,アフィン結合型オートエンコーダ(ACAE)法を提案する。
このアプローチは、28人の人間のポーズデータセットを使って1つのモデルを監督する、極端なマルチデータセット体制にスケールします。
論文 参考訳(メタデータ) (2022-12-29T22:22:49Z) - A Comprehensive Gold Standard and Benchmark for Comics Text Detection
and Recognition [2.1485350418225244]
本研究は,COMICSデータセットにおけるパネルの光学的文字認識(OCR)データの改善に焦点を当てた。
我々は「COMICS Text+: Detection」と「COMICS Text+: Recognition」と呼ばれる西欧コミックの最初のテキスト検出と認識データセットを作成しました。
我々は,これらのデータセット上での最先端テキスト検出および認識モデルの性能を評価し,COMICSのテキストと比較して単語の精度と正規化編集距離を大幅に改善した。
論文 参考訳(メタデータ) (2022-12-27T12:05:23Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。