論文の概要: The Manga Whisperer: Automatically Generating Transcriptions for Comics
- arxiv url: http://arxiv.org/abs/2401.10224v2
- Date: Thu, 21 Mar 2024 18:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 22:10:49.205775
- Title: The Manga Whisperer: Automatically Generating Transcriptions for Comics
- Title(参考訳): The Manga Whisperer:コミックの書き起こしを自動的に生成する
- Authors: Ragav Sachdeva, Andrew Zisserman,
- Abstract要約: 我々は,パネル,テキストボックス,文字ボックスを検出可能な統一モデル Magi を提案する。
本稿では,検出したテキストボックスを読み順にソートし,対話文を生成する手法を提案する。
- 参考スコア(独自算出の注目度): 55.544015596503726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the past few decades, Japanese comics, commonly referred to as Manga, have transcended both cultural and linguistic boundaries to become a true worldwide sensation. Yet, the inherent reliance on visual cues and illustration within manga renders it largely inaccessible to individuals with visual impairments. In this work, we seek to address this substantial barrier, with the aim of ensuring that manga can be appreciated and actively engaged by everyone. Specifically, we tackle the problem of diarisation i.e. generating a transcription of who said what and when, in a fully automatic way. To this end, we make the following contributions: (1) we present a unified model, Magi, that is able to (a) detect panels, text boxes and character boxes, (b) cluster characters by identity (without knowing the number of clusters apriori), and (c) associate dialogues to their speakers; (2) we propose a novel approach that is able to sort the detected text boxes in their reading order and generate a dialogue transcript; (3) we annotate an evaluation benchmark for this task using publicly available [English] manga pages. The code, evaluation datasets and the pre-trained model can be found at: https://github.com/ragavsachdeva/magi.
- Abstract(参考訳): 過去数十年間、マンガと呼ばれる日本の漫画は、文化と言語の境界を超越し、真の世界的なセンセーションとなった。
しかし、マンガの視覚的手がかりやイラストに固有の依存は、視覚障害のある個人にはほとんどアクセスできない。
本研究は,マンガが誰にでも評価され,積極的に関与できることを保証することを目的として,この大きな障壁に対処することを目的とする。
具体的には、ダイアリゼーション(ダイアリゼーション)の問題、すなわち、何をいつ、いつ、完全に自動で書き起こすかという問題に対処する。
この目的のために、我々は以下の貢献をする: (1) 統一されたモデル Magi を提示する。
(a)パネル、テキストボックス、文字ボックスを検出する。
(b)クラスタ文字の同一性(アプリオリのクラスタ数を知ることなく)、
(c)対話を話者に関連付け,(2)検出したテキストボックスを読み順にソートし,対話テキストを生成する新しいアプローチを提案する。(3)マンガページを公開して,このタスクの評価ベンチマークに注釈を付ける。
コード、評価データセット、事前トレーニングされたモデルは以下の通りである。
関連論文リスト
- Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names [53.24414727354768]
本論文は,マンガ全章の対話書き起こしを完全自動生成することを目的とする。
i) 言っていることを識別し、各ページのテキストを検出し、それらが本質的か非本質的かに分類する。
また、章を通して同じ文字が一貫した名前で呼ばれることも保証している。
論文 参考訳(メタデータ) (2024-08-01T05:47:04Z) - M2C: Towards Automatic Multimodal Manga Complement [40.01354682367365]
マルチモーダルマンガ分析は、視覚的特徴とテキスト的特徴によるマンガ理解の強化に焦点を当てている。
現在、ほとんどのコミックは手描きであり、ページの欠落、テキストの汚染、老化といった問題に悩まされている。
2つの言語をカバーする新しいM2Cベンチマークデータセットを確立することで,まずマルチモーダルマンガ補完タスクを提案する。
論文 参考訳(メタデータ) (2023-10-26T04:10:16Z) - Dense Multitask Learning to Reconfigure Comics [63.367664789203936]
漫画パネルの密集予測を実現するために,MultiTask Learning (MTL) モデルを開発した。
本手法は,漫画パネルにおける意味単位と3D概念の同定に有効である。
論文 参考訳(メタデータ) (2023-07-16T15:10:34Z) - Manga109Dialog: A Large-scale Dialogue Dataset for Comics Speaker Detection [37.083051419659135]
Manga109Dialogは世界最大の漫画話者データセットデータセットであり、132,692対の話者対を含む。
距離に基づく既存手法とは異なり,シーングラフ生成モデルを用いた深層学習手法を提案する。
実験の結果,シーングラフによるアプローチは既存の手法よりも優れており,予測精度は75%以上であることがわかった。
論文 参考訳(メタデータ) (2023-06-30T08:34:08Z) - Talk-to-Edit: Fine-Grained Facial Editing via Dialog [79.8726256912376]
Talk-to-Editは対話型顔編集フレームワークで、ユーザーとシステム間の対話を通じて微粒な属性操作を行う。
我々の重要な洞察は、GANラテント空間における連続的な「セマンティック場」をモデル化することである。
本システムは,ユーザからの要求とセマンティックフィールドの状態の両方を考慮し,言語フィードバックを生成する。
論文 参考訳(メタデータ) (2021-09-09T17:17:59Z) - AniGAN: Style-Guided Generative Adversarial Networks for Unsupervised
Anime Face Generation [84.52819242283852]
本稿では,肖像画をアニメ化するための新しい枠組みを提案する。
私たちの目標は、特定の参照アニメフェイスとスタイル一貫性のあるアニメフェイスを合成することです。
既存の方法は、しばしば参照アニメフェイスのスタイルを転送したり、生成された顔の局所的な形状に顕著なアーティファクトや歪みを導入することに失敗する。
論文 参考訳(メタデータ) (2021-02-24T22:47:38Z) - Towards Fully Automated Manga Translation [8.45043706496877]
漫画、日本の漫画の機械翻訳の問題に取り組みます。
画像からコンテキストを取得することは マンガの翻訳に不可欠です。
まず,マルチモーダルコンテキスト対応翻訳フレームワークを提案する。
第二に、モデルのトレーニングでは、オリジナル漫画のペアから自動コーパス構築へのアプローチを提案します。
第3に,マンガ翻訳を評価するための新しいベンチマークを作成した。
論文 参考訳(メタデータ) (2020-12-28T15:20:52Z) - Unconstrained Text Detection in Manga: a New Dataset and Baseline [3.04585143845864]
本研究は,日本漫画という高度に洗練された文体で漫画ジャンルのテキストをバイナライズすることを目的としている。
ピクセルレベルでのテキストアノテーションによるマンガデータセットの欠如を克服するために、私たちは独自のものを作成します。
これらの資源を用いて、多くのメトリクスにおいて、マンガにおけるテキストバイナライゼーションの現在の手法よりも優れた、ディープ・ネットワーク・モデルの設計と評価を行った。
論文 参考訳(メタデータ) (2020-09-09T00:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。