論文の概要: Manga109Dialog: A Large-scale Dialogue Dataset for Comics Speaker Detection
- arxiv url: http://arxiv.org/abs/2306.17469v2
- Date: Mon, 22 Apr 2024 10:40:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 01:02:16.575875
- Title: Manga109Dialog: A Large-scale Dialogue Dataset for Comics Speaker Detection
- Title(参考訳): Manga109Dialog:コミック話者検出のための大規模対話データセット
- Authors: Yingxuan Li, Kiyoharu Aizawa, Yusuke Matsui,
- Abstract要約: Manga109Dialogは世界最大の漫画話者データセットデータセットであり、132,692対の話者対を含む。
距離に基づく既存手法とは異なり,シーングラフ生成モデルを用いた深層学習手法を提案する。
実験の結果,シーングラフによるアプローチは既存の手法よりも優れており,予測精度は75%以上であることがわかった。
- 参考スコア(独自算出の注目度): 37.083051419659135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The expanding market for e-comics has spurred interest in the development of automated methods to analyze comics. For further understanding of comics, an automated approach is needed to link text in comics to characters speaking the words. Comics speaker detection research has practical applications, such as automatic character assignment for audiobooks, automatic translation according to characters' personalities, and inference of character relationships and stories. To deal with the problem of insufficient speaker-to-text annotations, we created a new annotation dataset Manga109Dialog based on Manga109. Manga109Dialog is the world's largest comics speaker annotation dataset, containing 132,692 speaker-to-text pairs. We further divided our dataset into different levels by prediction difficulties to evaluate speaker detection methods more appropriately. Unlike existing methods mainly based on distances, we propose a deep learning-based method using scene graph generation models. Due to the unique features of comics, we enhance the performance of our proposed model by considering the frame reading order. We conducted experiments using Manga109Dialog and other datasets. Experimental results demonstrate that our scene-graph-based approach outperforms existing methods, achieving a prediction accuracy of over 75%.
- Abstract(参考訳): 電子コミックの市場は拡大し、漫画を自動分析する手法の開発への関心が高まっている。
漫画の理解を深めるためには、漫画中のテキストを単語を話す文字にリンクするための自動アプローチが必要である。
コミック話者検出研究は、オーディオブックの自動文字割り当て、文字の個性に応じた自動翻訳、文字関係と物語の推測など、実践的な応用がある。
話者からテキストへのアノテーションが不十分な問題に対処するため,Manga109に基づく新しいアノテーションデータセットManga109Dialogを作成しました。
Manga109Dialogは世界最大の漫画話者データセットデータセットであり、132,692対の話者対を含む。
さらに,話者検出手法をより適切に評価するために,予測困難によりデータセットを異なるレベルに分割した。
距離に基づく既存手法とは異なり,シーングラフ生成モデルを用いた深層学習手法を提案する。
漫画の特徴から,フレーム読取順序を考慮し,提案したモデルの性能を向上させる。
Manga109Dialogや他のデータセットを用いて実験を行った。
実験の結果,シーングラフによるアプローチは既存の手法よりも優れており,予測精度は75%以上であることがわかった。
関連論文リスト
- Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Comics Datasets Framework: Mix of Comics datasets for detection benchmarking [11.457653763760792]
メディアとしてのコミックは、しばしば現実の視覚と異なるスタイルでテキストとイメージを独自に組み合わせている。
漫画の計算研究は、基本的な物体検出から、より洗練されたタスクへと進化してきた。
我々は、データセット間でアノテーションを標準化し、さまざまなコミックスタイルをデータセットに導入し、明確でレプリケート可能な設定でベンチマーク結果を確立することを目指している。
論文 参考訳(メタデータ) (2024-07-03T23:07:57Z) - Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion [35.25298023240529]
本稿では,未注釈の漫画画像のみに基づいて文字を識別し,話者名を予測するためのゼロショット手法を提案する。
本手法ではトレーニングデータやアノテーションは必要とせず,任意のコミックシリーズで使用することができる。
論文 参考訳(メタデータ) (2024-04-22T08:59:35Z) - The Manga Whisperer: Automatically Generating Transcriptions for Comics [55.544015596503726]
我々は,パネル,テキストボックス,文字ボックスを検出可能な統一モデル Magi を提案する。
本稿では,検出したテキストボックスを読み順にソートし,対話文を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T18:59:09Z) - Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。
対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。
また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T11:03:55Z) - A Benchmark for Understanding and Generating Dialogue between Characters
in Stories [75.29466820496913]
本研究は,機械が物語の対話を理解・生成できるかどうかを探求する最初の研究である。
マスク付き対話生成と対話話者認識という2つの新しいタスクを提案する。
DialStoryの自動評価と手動評価で既存のモデルをテストすることで,提案課題の難しさを示す。
論文 参考訳(メタデータ) (2022-09-18T10:19:04Z) - Automatic Comic Generation with Stylistic Multi-page Layouts and
Emotion-driven Text Balloon Generation [57.10363557465713]
本稿では,人間の介入なしにビデオから漫画を自動生成するシステムを提案する。
サブタイトルとともに入力ビデオが与えられると,まずサブタイトルを解析して情報抽出を行う。
そこで,複数のページにまたがる画像の割り当てが可能な,新しい自動マルチページフレームワークレイアウトを提案する。
論文 参考訳(メタデータ) (2021-01-26T22:15:15Z) - Unconstrained Text Detection in Manga: a New Dataset and Baseline [3.04585143845864]
本研究は,日本漫画という高度に洗練された文体で漫画ジャンルのテキストをバイナライズすることを目的としている。
ピクセルレベルでのテキストアノテーションによるマンガデータセットの欠如を克服するために、私たちは独自のものを作成します。
これらの資源を用いて、多くのメトリクスにおいて、マンガにおけるテキストバイナライゼーションの現在の手法よりも優れた、ディープ・ネットワーク・モデルの設計と評価を行った。
論文 参考訳(メタデータ) (2020-09-09T00:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。