論文の概要: One missing piece in Vision and Language: A Survey on Comics Understanding
- arxiv url: http://arxiv.org/abs/2409.09502v1
- Date: Sat, 14 Sep 2024 18:26:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 20:27:38.582654
- Title: One missing piece in Vision and Language: A Survey on Comics Understanding
- Title(参考訳): 視覚と言語に欠けている部分:コミック理解に関する調査
- Authors: Emanuele Vivoli, Andrey Barsky, Mohamed Ali Souibgui, Artemis LLabres, Marco Bertini, Dimosthenis Karatzas,
- Abstract要約: この調査は、コミックインテリジェンスのためのタスク指向フレームワークを提案する最初のものである。
データ可用性とタスク定義における重要なギャップに対処することで、将来の研究を導くことを目的としている。
- 参考スコア(独自算出の注目度): 13.766672321462435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models have recently evolved into versatile systems capable of high performance across a range of tasks, such as document understanding, visual question answering, and grounding, often in zero-shot settings. Comics Understanding, a complex and multifaceted field, stands to greatly benefit from these advances. Comics, as a medium, combine rich visual and textual narratives, challenging AI models with tasks that span image classification, object detection, instance segmentation, and deeper narrative comprehension through sequential panels. However, the unique structure of comics -- characterized by creative variations in style, reading order, and non-linear storytelling -- presents a set of challenges distinct from those in other visual-language domains. In this survey, we present a comprehensive review of Comics Understanding from both dataset and task perspectives. Our contributions are fivefold: (1) We analyze the structure of the comics medium, detailing its distinctive compositional elements; (2) We survey the widely used datasets and tasks in comics research, emphasizing their role in advancing the field; (3) We introduce the Layer of Comics Understanding (LoCU) framework, a novel taxonomy that redefines vision-language tasks within comics and lays the foundation for future work; (4) We provide a detailed review and categorization of existing methods following the LoCU framework; (5) Finally, we highlight current research challenges and propose directions for future exploration, particularly in the context of vision-language models applied to comics. This survey is the first to propose a task-oriented framework for comics intelligence and aims to guide future research by addressing critical gaps in data availability and task definition. A project associated with this survey is available at https://github.com/emanuelevivoli/awesome-comics-understanding.
- Abstract(参考訳): 視覚言語モデルは近年、文書理解、視覚的質問応答、グラウンド化など、様々なタスクで高いパフォーマンスを達成できる汎用システムへと進化してきた。
複雑で多面的な分野であるコミック理解は、これらの進歩の大きな恩恵を受けている。
コミックはメディアとして、リッチなビジュアルとテキストの物語、AIモデルの挑戦、イメージ分類、オブジェクト検出、インスタンスセグメンテーション、シーケンシャルパネルによるより深い物語理解といったタスクを組み合わせる。
しかし、スタイル、読み順、非線形ストーリーテリングの創造的なバリエーションを特徴とするコミックのユニークな構造は、他の視覚言語ドメインとは異なる課題の集合を提示する。
本稿では,データセットとタスクの観点から,Comics Understandingの総合的なレビューを行う。
コントリビューションは,(1)コミックメディアの構造を分析し,その特異な構成要素を詳述する;(2)コミック研究において広く使われているデータセットやタスクを調査し,分野の発展における役割を強調した;(3)コミック内の視覚言語タスクを再定義し,将来の作業の基礎を規定する新たな分類体系であるコミック理解層(LoCU)フレームワークを導入する;(4)LoCUフレームワークに続く既存手法の詳細なレビューと分類を行う;(5)最後に,現在研究課題を強調し,今後の研究の方向性を提案する。
この調査は、漫画インテリジェンスのためのタスク指向フレームワークを初めて提案し、データ可用性とタスク定義における重要なギャップに対処し、今後の研究を導くことを目的としている。
この調査に関連するプロジェクトはhttps://github.com/emanuelevivoli/awesome-comics-understanding.comで公開されている。
関連論文リスト
- Comics Datasets Framework: Mix of Comics datasets for detection benchmarking [11.457653763760792]
メディアとしてのコミックは、しばしば現実の視覚と異なるスタイルでテキストとイメージを独自に組み合わせている。
漫画の計算研究は、基本的な物体検出から、より洗練されたタスクへと進化してきた。
我々は、データセット間でアノテーションを標準化し、さまざまなコミックスタイルをデータセットに導入し、明確でレプリケート可能な設定でベンチマーク結果を確立することを目指している。
論文 参考訳(メタデータ) (2024-07-03T23:07:57Z) - Labeling Comic Mischief Content in Online Videos with a Multimodal Hierarchical-Cross-Attention Model [10.666877191424792]
そこで本研究では,コミック誤字検出のための新しいエンドツーエンドマルチモーダルシステムを提案する。
本稿では,ビデオ,テキスト(字幕と字幕),音声の3つのモードからなる目標タスクのための新しいデータセットをリリースする。
その結果,提案手法はロバストなベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2024-06-12T03:16:45Z) - Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion [35.25298023240529]
本稿では,未注釈の漫画画像のみに基づいて文字を識別し,話者名を予測するためのゼロショット手法を提案する。
本手法ではトレーニングデータやアノテーションは必要とせず,任意のコミックシリーズで使用することができる。
論文 参考訳(メタデータ) (2024-04-22T08:59:35Z) - A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing
Objects in 3D Scenes [80.20670062509723]
3Dシークエンスキャプションは、3Dシーンの詳細な説明を作成することを目的とした、視覚言語によるブリッジングタスクである。
2次元の視覚的キャプションと比較して、現実世界の表現が密接なため、大きな可能性と課題が提示される。
既存手法の人気と成功にもかかわらず、この分野の進歩を要約した総合的な調査は乏しい。
論文 参考訳(メタデータ) (2024-03-12T10:04:08Z) - Visual Text Meets Low-level Vision: A Comprehensive Survey on Visual
Text Processing [4.057550183467041]
視覚テキスト処理の分野は、基本的な生成モデルの出現によって、研究の急増を経験してきた。
この分野での最近の進歩を包括的かつ多面的に分析する。
論文 参考訳(メタデータ) (2024-02-05T15:13:20Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - Comics for Everyone: Generating Accessible Text Descriptions for Comic
Strips [0.0]
我々は、視覚障害者のコミュニティにアクセス可能なコミックストリップの自然言語記述を作成します。
まず、コンピュータビジョン技術を用いて、コミック画像のパネル、文字、テキストに関する情報を抽出する。
我々は,人間の専門家が注釈付けした漫画のコレクション上で本手法を試行し,定量的および定性的な指標を用いてその性能を計測する。
論文 参考訳(メタデータ) (2023-10-01T15:13:48Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Dense Multitask Learning to Reconfigure Comics [63.367664789203936]
漫画パネルの密集予測を実現するために,MultiTask Learning (MTL) モデルを開発した。
本手法は,漫画パネルにおける意味単位と3D概念の同定に有効である。
論文 参考訳(メタデータ) (2023-07-16T15:10:34Z) - Positioning yourself in the maze of Neural Text Generation: A
Task-Agnostic Survey [54.34370423151014]
本稿では, ストーリーテリング, 要約, 翻訳など, 世代ごとのタスクインパクトをリレーする手法の構成要素について検討する。
本稿では,学習パラダイム,事前学習,モデリングアプローチ,復号化,各分野における重要な課題について,命令的手法の抽象化を提案する。
論文 参考訳(メタデータ) (2020-10-14T17:54:42Z) - A Novel Attention-based Aggregation Function to Combine Vision and
Language [55.7633883960205]
本稿では,視覚と言語のための新しい完全適応型還元法を提案する。
具体的には,各モータリティの各要素のスコアの集合を,クロスアテンションの新たな変種を用いて計算する。
我々は、画像テキストマッチングと視覚的質問応答のアプローチを試行し、他の縮小選択と公正な比較を構築した。
論文 参考訳(メタデータ) (2020-04-27T18:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。