論文の概要: MangaUB: A Manga Understanding Benchmark for Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2407.19034v1
- Date: Fri, 26 Jul 2024 18:21:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 20:12:15.993574
- Title: MangaUB: A Manga Understanding Benchmark for Large Multimodal Models
- Title(参考訳): MangaUB: 大規模なマルチモーダルモデルのためのマンガ理解ベンチマーク
- Authors: Hikaru Ikuta, Leslie Wöhler, Kiyoharu Aizawa,
- Abstract要約: 漫画(まんが)は、物語を伝えるための文体と文体を組み合わせた人気メディアである。
近年、現代の大規模マルチモーダルモデル(LMM)の適応性は、より一般的なアプローチの可能性を示している。
MangaUBは、単一のパネルに表示されるコンテンツの認識と理解を評価するとともに、複数のパネルにまたがって伝達されるように設計されている。
- 参考スコア(独自算出の注目度): 25.63892470012361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manga is a popular medium that combines stylized drawings and text to convey stories. As manga panels differ from natural images, computational systems traditionally had to be designed specifically for manga. Recently, the adaptive nature of modern large multimodal models (LMMs) shows possibilities for more general approaches. To provide an analysis of the current capability of LMMs for manga understanding tasks and identifying areas for their improvement, we design and evaluate MangaUB, a novel manga understanding benchmark for LMMs. MangaUB is designed to assess the recognition and understanding of content shown in a single panel as well as conveyed across multiple panels, allowing for a fine-grained analysis of a model's various capabilities required for manga understanding. Our results show strong performance on the recognition of image content, while understanding the emotion and information conveyed across multiple panels is still challenging, highlighting future work towards LMMs for manga understanding.
- Abstract(参考訳): 漫画(まんが)は、物語を伝えるための文体と文体を組み合わせた人気メディアである。
マンガパネルは自然画像と異なるため、伝統的にマンガ用に特別に設計された計算システムが必要であった。
近年、現代の大規模マルチモーダルモデル(LMM)の適応性は、より一般的なアプローチの可能性を示している。
マンガ理解タスクにおけるLMMの現在の能力と改善のための領域を特定するために,我々は,LMMの新しいマンガ理解ベンチマークであるMangaUBを設計,評価した。
MangaUBは、単一のパネルに表示されるコンテンツの認識と理解を評価するとともに、複数のパネルにまたがって伝達されるように設計されており、マンガの理解に必要なモデルの様々な能力を詳細に分析することができる。
以上の結果から,複数のパネルにまたがって伝達される感情や情報を理解することは依然として困難であり,マンガ理解のためのLMMに向けた今後の課題が浮き彫りにされている。
関連論文リスト
- Context-Informed Machine Translation of Manga using Multimodal Large Language Models [4.063595992745368]
マルチモーダル大言語モデル(LLM)がマンガの翻訳に有効かを検討した。
具体的には,マルチモーダルLLMの視覚成分を利用して翻訳品質を向上させる手法を提案する。
本稿では,日本語とポーランド語を同時翻訳する新たな評価データセットを提案する。
論文 参考訳(メタデータ) (2024-11-04T20:29:35Z) - MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。
現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。
テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-26T19:26:50Z) - VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents [50.12414817737912]
大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。
既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。
VisualAgentBench (VAB) は、視覚基礎エージェントとしてLMMを訓練し評価するための先駆的なベンチマークである。
論文 参考訳(メタデータ) (2024-08-12T17:44:17Z) - Sketch2Manga: Shaded Manga Screening from Sketch with Diffusion Models [26.010509997863196]
本稿では,まずスケッチからカラーイラストを作成し,次にスクリーントーンマンガを生成する新しいスケッチ・ツー・マンガフレームワークを提案する。
本手法は, シェード型高周波数スクリーントーンを用いた高品質マンガの製作において, 既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-13T05:33:52Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - The Manga Whisperer: Automatically Generating Transcriptions for Comics [55.544015596503726]
我々は,パネル,テキストボックス,文字ボックスを検出可能な統一モデル Magi を提案する。
本稿では,検出したテキストボックスを読み順にソートし,対話文を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T18:59:09Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z) - inkn'hue: Enhancing Manga Colorization from Multiple Priors with
Alignment Multi-Encoder VAE [0.0]
マンガ色化のための特殊フレームワークを提案する。
マルチエンコーダVAEを用いたシェーディングと鮮やかな色付けに確立されたモデルを活用する。
この構造化ワークフローは、参照イメージと手動ヒントを組み込むオプションによって、明確でカラフルな結果を保証する。
論文 参考訳(メタデータ) (2023-11-03T09:33:32Z) - M2C: Towards Automatic Multimodal Manga Complement [40.01354682367365]
マルチモーダルマンガ分析は、視覚的特徴とテキスト的特徴によるマンガ理解の強化に焦点を当てている。
現在、ほとんどのコミックは手描きであり、ページの欠落、テキストの汚染、老化といった問題に悩まされている。
2つの言語をカバーする新しいM2Cベンチマークデータセットを確立することで,まずマルチモーダルマンガ補完タスクを提案する。
論文 参考訳(メタデータ) (2023-10-26T04:10:16Z) - Dense Multitask Learning to Reconfigure Comics [63.367664789203936]
漫画パネルの密集予測を実現するために,MultiTask Learning (MTL) モデルを開発した。
本手法は,漫画パネルにおける意味単位と3D概念の同定に有効である。
論文 参考訳(メタデータ) (2023-07-16T15:10:34Z) - MangaGAN: Unpaired Photo-to-Manga Translation Based on The Methodology
of Manga Drawing [27.99490750445691]
本稿では,GAN(Generative Adversarial Network)をベースとしたマンガGANを提案する。
マンガアーティストがいかにマンガを描くかにインスパイアされたMangaGANは、デザインされたGANモデルによってマンガの幾何学的特徴を生成する。
高品質なマンガ面を生成するために,スムーズなストロークラインへの構造的スムージングロスとノイズの多い画素の回避,および類似性保存モジュールを提案する。
論文 参考訳(メタデータ) (2020-04-22T15:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。