論文の概要: Multimodal Transformer for Comics Text-Cloze
- arxiv url: http://arxiv.org/abs/2403.03719v1
- Date: Wed, 6 Mar 2024 14:11:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 14:54:48.134460
- Title: Multimodal Transformer for Comics Text-Cloze
- Title(参考訳): コミックテキストクローズ用マルチモーダルトランスフォーマー
- Authors: Emanuele Vivoli, Joan Lafuente Baeza, Ernest Valveny Llobet,
Dimosthenis Karatzas
- Abstract要約: テキストクローズ(Text-cloze)とは、隣接するパネルから漫画パネルで使用する正しいテキストを選択するタスクである。
リカレントニューラルネットワークに基づく従来の手法は、OCR精度の制限と固有のモデル制限のために、このタスクに苦労してきた。
テキストクローズに特化して設計された新しいマルチモーダル大規模言語モデル(Multimodal-LLM)を導入する。
- 参考スコア(独自算出の注目度): 8.616858272810084
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This work explores a closure task in comics, a medium where visual and
textual elements are intricately intertwined. Specifically, Text-cloze refers
to the task of selecting the correct text to use in a comic panel, given its
neighboring panels. Traditional methods based on recurrent neural networks have
struggled with this task due to limited OCR accuracy and inherent model
limitations. We introduce a novel Multimodal Large Language Model
(Multimodal-LLM) architecture, specifically designed for Text-cloze, achieving
a 10% improvement over existing state-of-the-art models in both its easy and
hard variants. Central to our approach is a Domain-Adapted ResNet-50 based
visual encoder, fine-tuned to the comics domain in a self-supervised manner
using SimCLR. This encoder delivers comparable results to more complex models
with just one-fifth of the parameters. Additionally, we release new OCR
annotations for this dataset, enhancing model input quality and resulting in
another 1% improvement. Finally, we extend the task to a generative format,
establishing new baselines and expanding the research possibilities in the
field of comics analysis.
- Abstract(参考訳): 本研究は,視覚要素とテキスト要素が複雑に絡み合うメディアであるcomicsにおけるクロージャタスクを探求する。
具体的には、テキストクローズ(Text-cloze)は、隣接するパネルから漫画パネルで使用する正しいテキストを選択するタスクを指す。
繰り返しニューラルネットワークに基づく従来の手法は、OCR精度の制限と固有のモデル制限のために、このタスクに苦労してきた。
本稿では,テキストクローズ専用に設計された新しいマルチモーダル大規模言語モデル (multimodal-llm) アーキテクチャを提案する。
我々のアプローチの中心はドメイン適応型ResNet-50ベースのビジュアルエンコーダで、SimCLRを使ってコミックドメインに微調整される。
このエンコーダはパラメータの5分の1しか持たないより複雑なモデルに匹敵する結果をもたらす。
さらに、このデータセット用の新しいOCRアノテーションをリリースし、モデル入力品質を向上し、さらに1%改善しました。
最後に、タスクを生成形式に拡張し、新たなベースラインを確立し、コミック分析の分野における研究可能性を広げる。
関連論文リスト
- Multi-modal Generation via Cross-Modal In-Context Learning [50.45304937804883]
複雑なマルチモーダルプロンプトシーケンスから新しい画像を生成するMGCC法を提案する。
我々のMGCCは、新しい画像生成、マルチモーダル対話の促進、テキスト生成など、多種多様なマルチモーダル機能を示している。
論文 参考訳(メタデータ) (2024-05-28T15:58:31Z) - Dense Multitask Learning to Reconfigure Comics [63.367664789203936]
漫画パネルの密集予測を実現するために,MultiTask Learning (MTL) モデルを開発した。
本手法は,漫画パネルにおける意味単位と3D概念の同定に有効である。
論文 参考訳(メタデータ) (2023-07-16T15:10:34Z) - Text Reading Order in Uncontrolled Conditions by Sparse Graph
Segmentation [71.40119152422295]
テキストの読み出し順序を識別するための軽量でスケーラブルで一般化可能なアプローチを提案する。
モデルは言語に依存しず、多言語データセットで効果的に実行される。
モバイルデバイスを含むあらゆるプラットフォームにデプロイできるほど小さい。
論文 参考訳(メタデータ) (2023-05-04T06:21:00Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Continuous Offline Handwriting Recognition using Deep Learning Models [0.0]
手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。
我々は,畳み込みニューラルネットワーク(CNN)とシーケンス・ツー・シーケンス(seq2seq)という,2種類のディープラーニングアーキテクチャの統合に基づく新しい認識モデルを提案する。
提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
論文 参考訳(メタデータ) (2021-12-26T07:31:03Z) - TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance [15.72669617789124]
シーンテキスト認識(STR)は画像とテキストの間の重要なブリッジである。
最近の手法では、凍結初期埋め込みを使用してデコーダを誘導し、特徴をテキストにデコードし、精度が低下する。
TRansformer-based text recognizer with Initial embeddeding Guidance (TRIG) という,テキスト認識のための新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-16T09:10:39Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。