論文の概要: CoMix: A Comprehensive Benchmark for Multi-Task Comic Understanding
- arxiv url: http://arxiv.org/abs/2407.03550v2
- Date: Thu, 31 Oct 2024 14:51:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:57:28.475828
- Title: CoMix: A Comprehensive Benchmark for Multi-Task Comic Understanding
- Title(参考訳): CoMix: マルチタスク・コミック理解のための総合ベンチマーク
- Authors: Emanuele Vivoli, Marco Bertini, Dimosthenis Karatzas,
- Abstract要約: 我々は,コミック分析におけるモデルのマルチタスク能力を評価するために,新しいベンチマークであるCoMixを導入する。
本ベンチマークは,マルチタスク評価をサポートするアノテーションを拡張した既存の3つのデータセットからなる。
マンガスタイルのデータの過剰表現を緩和するために、慎重に選択されたアメリカの漫画スタイルの本を新たにデータセットとして組み込んだ。
- 参考スコア(独自算出の注目度): 14.22900011952181
- License:
- Abstract: The comic domain is rapidly advancing with the development of single-page analysis and synthesis models. However, evaluation metrics and datasets lag behind, often limited to small-scale or single-style test sets. We introduce a novel benchmark, CoMix, designed to evaluate the multi-task capabilities of models in comic analysis. Unlike existing benchmarks that focus on isolated tasks such as object detection or text recognition, CoMix addresses a broader range of tasks including object detection, speaker identification, character re-identification, reading order, and multi-modal reasoning tasks like character naming and dialogue generation. Our benchmark comprises three existing datasets with expanded annotations to support multi-task evaluation. To mitigate the over-representation of manga-style data, we have incorporated a new dataset of carefully selected American comic-style books, thereby enriching the diversity of comic styles. CoMix is designed to assess pre-trained models in zero-shot and limited fine-tuning settings, probing their transfer capabilities across different comic styles and tasks. The validation split of the benchmark is publicly available for research purposes, and an evaluation server for the held-out test split is also provided. Comparative results between human performance and state-of-the-art models reveal a significant performance gap, highlighting substantial opportunities for advancements in comic understanding. The dataset, baseline models, and code are accessible at https://github.com/emanuelevivoli/CoMix-dataset. This initiative sets a new standard for comprehensive comic analysis, providing the community with a common benchmark for evaluation on a large and varied set.
- Abstract(参考訳): 漫画領域は、単ページ分析と合成モデルの開発により急速に進歩している。
しかし、評価指標とデータセットは遅れており、しばしば小規模または単一スタイルのテストセットに限られる。
我々は,コミック分析におけるモデルのマルチタスク能力を評価するために,新しいベンチマークであるCoMixを導入する。
オブジェクト検出やテキスト認識などの独立したタスクにフォーカスする既存のベンチマークとは異なり、CoMixはオブジェクト検出、話者識別、文字の再識別、読み出し順序、文字の命名や対話生成といったマルチモーダルな推論タスクを含む幅広いタスクに対処する。
本ベンチマークは,マルチタスク評価をサポートするアノテーションを拡張した既存の3つのデータセットからなる。
マンガスタイルのデータの過剰表現を緩和するため、慎重に選択されたアメリカの漫画スタイルの書籍のデータセットを新たに導入し、漫画スタイルの多様性を高めた。
CoMixは、訓練済みのモデルをゼロショットと限定的な微調整設定で評価し、異なるコミックスタイルやタスク間で転送能力を示すように設計されている。
ベンチマークの検証スプリットを研究目的で公開し、ホールドアウトテストスプリットの評価サーバも提供する。
人間のパフォーマンスと最先端のモデルを比較すると、大きなパフォーマンスのギャップが示され、漫画理解の進歩のかなりの機会が浮かび上がっている。
データセット、ベースラインモデル、コードはhttps://github.com/emanuelevivoli/CoMix-datasetでアクセスできる。
このイニシアチブは、包括的コミック分析の新しい標準を設定し、大規模で多様なセットの評価のための共通ベンチマークを提供する。
関連論文リスト
- Comics Datasets Framework: Mix of Comics datasets for detection benchmarking [11.457653763760792]
メディアとしてのコミックは、しばしば現実の視覚と異なるスタイルでテキストとイメージを独自に組み合わせている。
漫画の計算研究は、基本的な物体検出から、より洗練されたタスクへと進化してきた。
我々は、データセット間でアノテーションを標準化し、さまざまなコミックスタイルをデータセットに導入し、明確でレプリケート可能な設定でベンチマーク結果を確立することを目指している。
論文 参考訳(メタデータ) (2024-07-03T23:07:57Z) - Text-space Graph Foundation Models: Comprehensive Benchmarks and New Insights [44.11628188443046]
Graph Foundation Model(GFM)は、異なるグラフやタスクに対して、統一されたバックボーンでうまく機能する。
異なるモダリティと自然言語を一致させるマルチモーダルモデルに触発されたこのテキストは、近年、多様なグラフに統一された特徴空間を提供するために採用されている。
これらのテキスト空間 GFM の大きな可能性にもかかわらず、この分野での現在の研究は2つの問題によって妨げられている。
論文 参考訳(メタデータ) (2024-06-15T19:56:21Z) - BlendX: Complex Multi-Intent Detection with Blended Patterns [4.852816974803059]
BlendXは、前者よりも多様なパターンを特徴とする洗練されたデータセットのスイートです。
データセット構築には,ルールベースと生成ツール – OpenAIのChatGPT – の両方を使用します。
BlendXの実験によると、最先端のMIDモデルは、新しいデータセットがもたらす課題に苦戦している。
論文 参考訳(メタデータ) (2024-03-27T06:13:04Z) - Multi-Review Fusion-in-Context [20.681734117825822]
接地テキスト生成には、コンテンツ選択とコンテンツ統合の両方が必要である。
最近の研究で、各ステップごとに別々のコンポーネントを持つモジュラーアプローチが提案されている。
本研究は,マルチドキュメント・セッティングにおけるモジュール・テキスト・ジェネレーションのさらなる探求の基盤となるものである。
論文 参考訳(メタデータ) (2024-03-22T17:06:05Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - UniSumm and SummZoo: Unified Model and Diverse Benchmark for Few-Shot
Summarization [54.59104881168188]
textscUniSummは、複数の要約タスクで事前訓練された、統合された数ショットの要約モデルである。
textscSummZooは、スクリーンショットの要約をよりよく評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2022-11-17T18:54:47Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - OpenMixup: Open Mixup Toolbox and Benchmark for Visual Representation Learning [53.57075147367114]
視覚表現学習のための最初のミックスアップ拡張とベンチマークであるOpenMixupを紹介する。
私たちは、スクラッチから18の代表的なミックスアップベースラインをトレーニングし、11の画像データセットでそれらを厳格に評価します。
また、人気のあるビジョンバックボーン、最適化戦略、分析ツールキットのコレクションを含むモジュラーバックボーンをオープンソースにしています。
論文 参考訳(メタデータ) (2022-09-11T12:46:01Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Free Lunch for Co-Saliency Detection: Context Adjustment [14.688461235328306]
市販のサリエンシ検出データセットからの画像を利用して新しいサンプルを合成する「コストフリー」グループカットペースト(GCP)手順を提案する。
我々は、Context Adjustment Trainingと呼ばれる新しいデータセットを収集します。データセットの2つのバリエーション、すなわち、CATとCAT+は、それぞれ16,750と33,500の画像で構成されています。
論文 参考訳(メタデータ) (2021-08-04T14:51:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。