論文の概要: ComiCap: A VLMs pipeline for dense captioning of Comic Panels
- arxiv url: http://arxiv.org/abs/2409.16159v1
- Date: Tue, 24 Sep 2024 14:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 05:27:07.036938
- Title: ComiCap: A VLMs pipeline for dense captioning of Comic Panels
- Title(参考訳): ComiCap:Comic Panelsの高密度キャプションのためのVLMパイプライン
- Authors: Emanuele Vivoli, Niccolò Biondi, Marco Bertini, Dimosthenis Karatzas,
- Abstract要約: 本稿では,VLM(Vision-Language Models)を利用して高密度の接地キャプションを得るパイプラインを提案する。
13,000冊の書籍に200万件以上のパネルをアノテートしました。
- 参考スコア(独自算出の注目度): 13.025112894510038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The comic domain is rapidly advancing with the development of single- and multi-page analysis and synthesis models. Recent benchmarks and datasets have been introduced to support and assess models' capabilities in tasks such as detection (panels, characters, text), linking (character re-identification and speaker identification), and analysis of comic elements (e.g., dialog transcription). However, to provide a comprehensive understanding of the storyline, a model must not only extract elements but also understand their relationships and generate highly informative captions. In this work, we propose a pipeline that leverages Vision-Language Models (VLMs) to obtain dense, grounded captions. To construct our pipeline, we introduce an attribute-retaining metric that assesses whether all important attributes are identified in the caption. Additionally, we created a densely annotated test set to fairly evaluate open-source VLMs and select the best captioning model according to our metric. Our pipeline generates dense captions with bounding boxes that are quantitatively and qualitatively superior to those produced by specifically trained models, without requiring any additional training. Using this pipeline, we annotated over 2 million panels across 13,000 books, which will be available on the project page https://github.com/emanuelevivoli/ComiCap.
- Abstract(参考訳): 漫画領域は、単ページ分析と多ページ合成モデルの開発により急速に進歩している。
最近のベンチマークとデータセットは、検出(パネル、文字、テキスト)、リンク(文字の再識別と話者識別)、コミック要素の分析(例えば、ダイアログの書き起こし)などのタスクにおけるモデルの能力をサポートし、評価するために導入されている。
しかし、ストーリーラインを包括的に理解するためには、モデルが要素を抽出するだけでなく、それらの関係を理解し、非常に情報性の高いキャプションを生成する必要がある。
本研究では,VLM(Vision-Language Models)を利用して,密度の高い接地キャプションを得るパイプラインを提案する。
パイプラインを構築するために、キャプションにすべての重要な属性が識別されているかどうかを評価する属性保持メトリックを導入する。
さらに,オープンソースVLMを精度よく評価し,評価基準に従って最適なキャプションモデルを選択するための,高密度アノテーション付きテストセットを作成した。
我々のパイプラインは、特別に訓練されたモデルによって生成されたものよりも定量的に質的に優れている境界ボックスを持つ密度の高いキャプションを生成するが、追加のトレーニングは不要である。
このパイプラインを使って、13,000冊の書籍に200万以上のパネルを注釈付けし、プロジェクトページhttps://github.com/emanuelevivoli/ComiCapで公開します。
関連論文リスト
- Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning [77.2852342808769]
本稿では、シーングラフビューから視覚的コンテキストを評価するために、CompreCapと呼ばれる詳細なキャプションベンチマークを導入する。
画像は、まず、共通オブジェクトの語彙に従って意味的に意味のある領域に手動で分割し、また、これらすべての領域内のオブジェクトの属性を識別する。
そして、これらのオブジェクトの方向関係ラベルに注釈を付け、画像のリッチな構成情報を十分にエンコードできる方向のシーングラフを構成する。
論文 参考訳(メタデータ) (2024-12-11T18:37:42Z) - Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling [81.69474860607542]
画像とテキストの両方にインスタンスレベルのアノテーションを追加する大規模データセットであるOpenstory++を提示する。
また、長いマルチモーダルコンテキストが提供される際に、画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchについても紹介する。
論文 参考訳(メタデータ) (2024-08-07T11:20:37Z) - Benchmarking and Improving Detail Image Caption [12.078715675876674]
視覚言語モデル (LVLM) は視覚理解の基本的な課題とされてきた。
本稿では,人間専門家が注釈付けした高品質な評価データセットをキュレートすることで,詳細な画像キャプションタスクのベンチマークを行う。
また、CAPTUREと呼ばれるより信頼性の高いキャプション評価指標も設計する。
論文 参考訳(メタデータ) (2024-05-29T13:54:12Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - FuseCap: Leveraging Large Language Models for Enriched Fused Image
Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。
提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。
私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文 参考訳(メタデータ) (2023-05-28T13:16:03Z) - Towards Models that Can See and Read [12.078407046266982]
Visual Question Answering (VQA) と Image Captioning (CAP) は、画像中のテキストからの推論を必要とする類似のシーンテキストバージョンである。
We propose UniTNT, an Unified Text-Non-Text approach, which allows existing multimodal scene-text understanding capabilities。
シーンテキスト理解機能により、一般的なVQAおよびCAPにおける視覚言語モデルの性能が最大2.69%向上し、0.6CIDEr向上することを示す。
論文 参考訳(メタデータ) (2023-01-18T09:36:41Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。