論文の概要: CoSMo: A Multimodal Transformer for Page Stream Segmentation in Comic Books
- arxiv url: http://arxiv.org/abs/2507.10053v1
- Date: Mon, 14 Jul 2025 08:35:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.56045
- Title: CoSMo: A Multimodal Transformer for Page Stream Segmentation in Comic Books
- Title(参考訳): CoSMo: コミックブックにおけるページストリームセグメンテーションのためのマルチモーダルトランス
- Authors: Marc Serra Ortega, Emanuele Vivoli, Artemis Llabrés, Dimosthenis Karatzas,
- Abstract要約: CoSMoはコミックブックにおけるページストリームのためのトランスフォーマー(PSS)であり、自動コンテンツ理解のための重要なタスクである。
我々は、このユニークな媒体に対してPSSを形式化し、新しい20,800ページの注釈付きデータセットをキュレートする。
CoSMoは、伝統的なベースラインとはるかに大きな汎用視覚言語モデルより一貫して優れている。
- 参考スコア(独自算出の注目度): 7.887803138420098
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper introduces CoSMo, a novel multimodal Transformer for Page Stream Segmentation (PSS) in comic books, a critical task for automated content understanding, as it is a necessary first stage for many downstream tasks like character analysis, story indexing, or metadata enrichment. We formalize PSS for this unique medium and curate a new 20,800-page annotated dataset. CoSMo, developed in vision-only and multimodal variants, consistently outperforms traditional baselines and significantly larger general-purpose vision-language models across F1-Macro, Panoptic Quality, and stream-level metrics. Our findings highlight the dominance of visual features for comic PSS macro-structure, yet demonstrate multimodal benefits in resolving challenging ambiguities. CoSMo establishes a new state-of-the-art, paving the way for scalable comic book analysis.
- Abstract(参考訳): 本稿では,漫画におけるページストリームセグメンテーション(PSS)のための新しいマルチモーダルトランスフォーマーであるCoSMoを紹介する。
我々は、このユニークな媒体に対してPSSを形式化し、新しい20,800ページの注釈付きデータセットをキュレートする。
CoSMoは視覚のみの派生型とマルチモーダルの派生型で開発され、F1-Macro、Panoptic Quality、ストリームレベルのメトリクスで従来のベースラインと大幅に大きな汎用のビジョン言語モデルより優れていた。
本研究は,漫画PSSマクロ構造における視覚的特徴の優位性を強調しつつも,難易度を解消する上でのマルチモーダルな利点を示すものである。
CoSMoは新しい最先端技術を確立し、スケーラブルなコミックブック分析の道を開いた。
関連論文リスト
- Recurrence-Enhanced Vision-and-Language Transformers for Robust Multimodal Document Retrieval [44.008094698200026]
クロスモーダル検索は研究コミュニティから有効性や関心が増している。
本稿では,画像とテキストの両方からなるマルチモーダルクエリを実現するアプローチを設計する。
我々のモデルであるReTは、視覚とテキストの両方のバックボーンの異なるレイヤから抽出されたマルチレベル表現を用いる。
論文 参考訳(メタデータ) (2025-03-03T19:01:17Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Bridging the Gap between Text, Audio, Image, and Any Sequence: A Novel Approach using Gloss-based Annotation [5.528860524494717]
本稿では,光沢に基づくアノテーションを利用してマルチモーダル理解を簡素化する,BGTAIと呼ばれる革新的な手法を提案する。
テキストと音声を、複雑な意味的ニュアンスを省略するグロス表記として表現することで、画像との整合性が向上する可能性がある。
論文 参考訳(メタデータ) (2024-10-04T04:59:50Z) - Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification [74.45521856327001]
階層構造テキストと埋め込み画像で長い文書を分類する方法は、新しい問題である。
本稿では,階層型マルチモーダル変換器 (HMT) を用いたクロスモーダルな文書分類手法を提案する。
本稿では,マルチモーダル変換器と動的マルチスケールマルチモーダル変換器を用いて,画像特徴とセクションと文特徴の複雑な関係をモデル化する。
論文 参考訳(メタデータ) (2024-07-14T07:12:25Z) - Multimodal Transformer for Comics Text-Cloze [8.616858272810084]
テキストクローズ(Text-cloze)とは、隣接するパネルから漫画パネルで使用する正しいテキストを選択するタスクである。
リカレントニューラルネットワークに基づく従来の手法は、OCR精度の制限と固有のモデル制限のために、このタスクに苦労してきた。
テキストクローズに特化して設計された新しいマルチモーダル大規模言語モデル(Multimodal-LLM)を導入する。
論文 参考訳(メタデータ) (2024-03-06T14:11:45Z) - Semantics-Consistent Cross-domain Summarization via Optimal Transport
Alignment [80.18786847090522]
本稿では,視覚とテキストのセグメンテーションによる最適なトランスポートアライメントに基づくセマンティックス・コンスタントなクロスドメイン要約モデルを提案する。
提案手法を最近の3つのマルチモーダルデータセット上で評価し,高品質なマルチモーダル要約を作成する上での有効性を実証した。
論文 参考訳(メタデータ) (2022-10-10T14:27:10Z) - Modeling Paragraph-Level Vision-Language Semantic Alignment for
Multi-Modal Summarization [23.475411831792716]
We propose ViL-Sum to jointly model of paragraph-level textbfVision-textbfLanguage Semantic Alignment and Multi-Modal textbfSummarization。
ViL-Sumのコアは、よく設計された2つのタスク、画像の並べ替えと画像選択を備えたマルチモーダルエンコーダである。
実験結果から,提案したViL-Sumは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-08-24T05:18:23Z) - MHMS: Multimodal Hierarchical Multimedia Summarization [80.18786847090522]
視覚領域と言語領域を相互作用させることにより,マルチモーダル階層型マルチメディア要約(MHMS)フレームワークを提案する。
本手法は,ビデオとテキストのセグメンテーションと要約モジュールをそれぞれ含んでいる。
ドメイン間のアライメントの目的を最適な輸送距離で定式化し、代表とテキストの要約を生成する。
論文 参考訳(メタデータ) (2022-04-07T21:00:40Z) - Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-03T08:44:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。