論文の概要: M2C: Towards Automatic Multimodal Manga Complement
- arxiv url: http://arxiv.org/abs/2310.17130v1
- Date: Thu, 26 Oct 2023 04:10:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 22:22:25.985849
- Title: M2C: Towards Automatic Multimodal Manga Complement
- Title(参考訳): M2C:マルチモーダルマンガの自動補完を目指して
- Authors: Hongcheng Guo, Boyang Wang, Jiaqi Bai, Jiaheng Liu, Jian Yang, Zhoujun
Li
- Abstract要約: マルチモーダルマンガ分析は、視覚的特徴とテキスト的特徴によるマンガ理解の強化に焦点を当てている。
現在、ほとんどのコミックは手描きであり、ページの欠落、テキストの汚染、老化といった問題に悩まされている。
2つの言語をカバーする新しいM2Cベンチマークデータセットを確立することで,まずマルチモーダルマンガ補完タスクを提案する。
- 参考スコア(独自算出の注目度): 40.01354682367365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal manga analysis focuses on enhancing manga understanding with
visual and textual features, which has attracted considerable attention from
both natural language processing and computer vision communities. Currently,
most comics are hand-drawn and prone to problems such as missing pages, text
contamination, and aging, resulting in missing comic text content and seriously
hindering human comprehension. In other words, the Multimodal Manga Complement
(M2C) task has not been investigated, which aims to handle the aforementioned
issues by providing a shared semantic space for vision and language
understanding. To this end, we first propose the Multimodal Manga Complement
task by establishing a new M2C benchmark dataset covering two languages. First,
we design a manga argumentation method called MCoT to mine event knowledge in
comics with large language models. Then, an effective baseline FVP-M$^{2}$
using fine-grained visual prompts is proposed to support manga complement.
Extensive experimental results show the effectiveness of FVP-M$^{2}$ method for
Multimodal Mange Complement.
- Abstract(参考訳): マルチモーダルマンガ分析は、自然言語処理とコンピュータビジョンのコミュニティからかなりの注目を集めている視覚機能とテキスト機能によるマンガ理解の強化に焦点を当てている。
現在、ほとんどのコミックは手書きであり、ページの欠落、テキストの汚染、老化といった問題に悩まされており、コミックのコンテンツが不足し、人間の理解を著しく妨げている。
言い換えれば、M2C(Multimodal Manga Complement)タスクは、視覚と言語理解のための共有意味空間を提供することによって、上記の問題に対処することを目的としている。
そこで我々はまず,2つの言語をカバーする新しいM2Cベンチマークデータセットを確立することで,マルチモーダルマンガ補完タスクを提案する。
まず,MCoTと呼ばれるマンガ論法を設計し,大規模言語モデルを用いた漫画のイベント知識を抽出する。
そこで, マンガ補間をサポートするために, きめ細かい視覚的プロンプトを用いた実効ベースラインFVP-M$^{2}$を提案する。
FVP-M$^{2}$法のマルチモーダルマンジュ補充に対する有効性を示した。
関連論文リスト
- Context-Informed Machine Translation of Manga using Multimodal Large Language Models [4.063595992745368]
マルチモーダル大言語モデル(LLM)がマンガの翻訳に有効かを検討した。
具体的には,マルチモーダルLLMの視覚成分を利用して翻訳品質を向上させる手法を提案する。
本稿では,日本語とポーランド語を同時翻訳する新たな評価データセットを提案する。
論文 参考訳(メタデータ) (2024-11-04T20:29:35Z) - MangaUB: A Manga Understanding Benchmark for Large Multimodal Models [25.63892470012361]
漫画(まんが)は、物語を伝えるための文体と文体を組み合わせた人気メディアである。
近年、現代の大規模マルチモーダルモデル(LMM)の適応性は、より一般的なアプローチの可能性を示している。
MangaUBは、単一のパネルに表示されるコンテンツの認識と理解を評価するとともに、複数のパネルにまたがって伝達されるように設計されている。
論文 参考訳(メタデータ) (2024-07-26T18:21:30Z) - The Manga Whisperer: Automatically Generating Transcriptions for Comics [55.544015596503726]
我々は,パネル,テキストボックス,文字ボックスを検出可能な統一モデル Magi を提案する。
本稿では,検出したテキストボックスを読み順にソートし,対話文を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T18:59:09Z) - MaRU: A Manga Retrieval and Understanding System Connecting Vision and
Language [10.226184504988067]
MaRU (Manga Retrieval and Understanding) は、マンガフレーム内の対話とシーンの効率的な検索を容易にするために、視覚と言語を接続する多段階システムである。
MaRUのアーキテクチャは、テキストとフレーム境界ボックスを識別するオブジェクト検出モデル、テキストを埋め込むテキストエンコーダ、およびテキスト情報と視覚情報を統合してシーン検索のための統合埋め込み空間にマージするビジョンエンコーダを統合する。
論文 参考訳(メタデータ) (2023-10-22T05:51:02Z) - Dense Multitask Learning to Reconfigure Comics [63.367664789203936]
漫画パネルの密集予測を実現するために,MultiTask Learning (MTL) モデルを開発した。
本手法は,漫画パネルにおける意味単位と3D概念の同定に有効である。
論文 参考訳(メタデータ) (2023-07-16T15:10:34Z) - Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。
我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。
実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。
また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:55:27Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Towards Fully Automated Manga Translation [8.45043706496877]
漫画、日本の漫画の機械翻訳の問題に取り組みます。
画像からコンテキストを取得することは マンガの翻訳に不可欠です。
まず,マルチモーダルコンテキスト対応翻訳フレームワークを提案する。
第二に、モデルのトレーニングでは、オリジナル漫画のペアから自動コーパス構築へのアプローチを提案します。
第3に,マンガ翻訳を評価するための新しいベンチマークを作成した。
論文 参考訳(メタデータ) (2020-12-28T15:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。