論文の概要: ComicsPAP: understanding comic strips by picking the correct panel
- arxiv url: http://arxiv.org/abs/2503.08561v1
- Date: Tue, 11 Mar 2025 15:50:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:42:32.912257
- Title: ComicsPAP: understanding comic strips by picking the correct panel
- Title(参考訳): ComicsPAP:正しいパネルを選択することで漫画のストリップを理解する
- Authors: Emanuele Vivoli, Artemis Llabrés, Mohamed Ali Soubgui, Marco Bertini, Ernest Valveny Llobet, Dimosthenis Karatzas,
- Abstract要約: ComicsPAPは、コミックストリップ理解のために設計された大規模なベンチマークである。
評価の結果,現状のLMMはこれらのタスクにほぼ近い確率で実行可能であることがわかった。
漫画のストリップ理解にLMMを適用し,ComicsPAPの10倍のモデルよりも優れた結果を得た。
- 参考スコア(独自算出の注目度): 11.457653763760792
- License:
- Abstract: Large multimodal models (LMMs) have made impressive strides in image captioning, VQA, and video comprehension, yet they still struggle with the intricate temporal and spatial cues found in comics. To address this gap, we introduce ComicsPAP, a large-scale benchmark designed for comic strip understanding. Comprising over 100k samples and organized into 5 subtasks under a Pick-a-Panel framework, ComicsPAP demands models to identify the missing panel in a sequence. Our evaluations, conducted under both multi-image and single-image protocols, reveal that current state-of-the-art LMMs perform near chance on these tasks, underscoring significant limitations in capturing sequential and contextual dependencies. To close the gap, we adapted LMMs for comic strip understanding, obtaining better results on ComicsPAP than 10x bigger models, demonstrating that ComicsPAP offers a robust resource to drive future research in multimodal comic comprehension.
- Abstract(参考訳): 大型マルチモーダルモデル(LMM)は、画像キャプション、VQA、ビデオ理解において目覚ましい進歩を遂げてきたが、漫画に見られる複雑な時間的・空間的な手がかりに苦戦している。
このギャップに対処するために,コミックストリップ理解のための大規模ベンチマークであるComicsPAPを導入する。
100万以上のサンプルをコンパイルし、Pick-a-Panelフレームワークの下で5つのサブタスクに編成することで、ComicsPAPは、欠落したパネルをシーケンスで識別するモデルを要求する。
マルチイメージプロトコルと単一イメージプロトコルの両方で実施した評価の結果,現状のLMMがこれらのタスクにほぼ近い確率で実行し,逐次的および文脈的依存関係の取得に重大な制限を課していることが明らかとなった。
このギャップを埋めるため,コミックストリップ理解にLMMを適用し,ComicsPAPの10倍のモデルよりも優れた結果を得た。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - One missing piece in Vision and Language: A Survey on Comics Understanding [13.766672321462435]
この調査は、コミックインテリジェンスのためのタスク指向フレームワークを提案する最初のものである。
データ可用性とタスク定義における重要なギャップに対処することで、将来の研究を導くことを目的としている。
論文 参考訳(メタデータ) (2024-09-14T18:26:26Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Labeling Comic Mischief Content in Online Videos with a Multimodal Hierarchical-Cross-Attention Model [10.666877191424792]
そこで本研究では,コミック誤字検出のための新しいエンドツーエンドマルチモーダルシステムを提案する。
本稿では,ビデオ,テキスト(字幕と字幕),音声の3つのモードからなる目標タスクのための新しいデータセットをリリースする。
その結果,提案手法はロバストなベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2024-06-12T03:16:45Z) - Multi-modal Generation via Cross-Modal In-Context Learning [50.45304937804883]
複雑なマルチモーダルプロンプトシーケンスから新しい画像を生成するMGCC法を提案する。
我々のMGCCは、新しい画像生成、マルチモーダル対話の促進、テキスト生成など、多種多様なマルチモーダル機能を示している。
論文 参考訳(メタデータ) (2024-05-28T15:58:31Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - Multimodal Transformer for Comics Text-Cloze [8.616858272810084]
テキストクローズ(Text-cloze)とは、隣接するパネルから漫画パネルで使用する正しいテキストを選択するタスクである。
リカレントニューラルネットワークに基づく従来の手法は、OCR精度の制限と固有のモデル制限のために、このタスクに苦労してきた。
テキストクローズに特化して設計された新しいマルチモーダル大規模言語モデル(Multimodal-LLM)を導入する。
論文 参考訳(メタデータ) (2024-03-06T14:11:45Z) - Dense Multitask Learning to Reconfigure Comics [63.367664789203936]
漫画パネルの密集予測を実現するために,MultiTask Learning (MTL) モデルを開発した。
本手法は,漫画パネルにおける意味単位と3D概念の同定に有効である。
論文 参考訳(メタデータ) (2023-07-16T15:10:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。