論文の概要: Dense Multitask Learning to Reconfigure Comics
- arxiv url: http://arxiv.org/abs/2307.08071v1
- Date: Sun, 16 Jul 2023 15:10:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 15:52:43.825846
- Title: Dense Multitask Learning to Reconfigure Comics
- Title(参考訳): 複雑なマルチタスク学習によるコミックの再構成
- Authors: Deblina Bhattacharjee, Sabine S\"usstrunk and Mathieu Salzmann
- Abstract要約: 漫画パネルの密集予測を実現するために,MultiTask Learning (MTL) モデルを開発した。
本手法は,漫画パネルにおける意味単位と3D概念の同定に有効である。
- 参考スコア(独自算出の注目度): 63.367664789203936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we develop a MultiTask Learning (MTL) model to achieve dense
predictions for comics panels to, in turn, facilitate the transfer of comics
from one publication channel to another by assisting authors in the task of
reconfiguring their narratives. Our MTL method can successfully identify the
semantic units as well as the embedded notion of 3D in comic panels. This is a
significantly challenging problem because comics comprise disparate artistic
styles, illustrations, layouts, and object scales that depend on the authors
creative process. Typically, dense image-based prediction techniques require a
large corpus of data. Finding an automated solution for dense prediction in the
comics domain, therefore, becomes more difficult with the lack of ground-truth
dense annotations for the comics images. To address these challenges, we
develop the following solutions: 1) we leverage a commonly-used strategy known
as unsupervised image-to-image translation, which allows us to utilize a large
corpus of real-world annotations; 2) we utilize the results of the translations
to develop our multitasking approach that is based on a vision transformer
backbone and a domain transferable attention module; 3) we study the
feasibility of integrating our MTL dense-prediction method with an existing
retargeting method, thereby reconfiguring comics.
- Abstract(参考訳): 本稿では,漫画パネルの高密度な予測を実現するためのMultiTask Learning (MTL) モデルを開発した。
MTL法は,マンガパネルに埋め込まれた3Dの概念だけでなく,意味単位の同定にも有効である。
コミックは異なる芸術スタイル、イラスト、レイアウト、そして作者の創造過程に依存するオブジェクトスケールで構成されているため、これは非常に難しい問題である。
通常、高密度画像ベースの予測技術は大量のデータを必要とする。
漫画領域における密集予測のための自動解を見つけることは、漫画画像に対する地味な密集アノテーションの欠如により、より困難になる。
これらの課題に対処するために、以下のソリューションを開発します。
1) 実世界のアノテーションの大規模なコーパスを利用することが可能な,教師なし画像から画像への変換という,一般的な戦略を活用する。
2)視覚変換器のバックボーンとドメイン転送可能なアテンションモジュールをベースとしたマルチタスク手法の開発に,翻訳結果を活用する。
3) MTL高密度予測手法を既存の再ターゲティング手法に統合し,コミックを再構成する可能性を検討する。
関連論文リスト
- One missing piece in Vision and Language: A Survey on Comics Understanding [13.766672321462435]
この調査は、コミックインテリジェンスのためのタスク指向フレームワークを提案する最初のものである。
データ可用性とタスク定義における重要なギャップに対処することで、将来の研究を導くことを目的としている。
論文 参考訳(メタデータ) (2024-09-14T18:26:26Z) - Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models [57.37244894146089]
Diff2Sceneは、テキスト画像生成モデルからの凍結表現と、サルエント・アウェアと幾何学的アウェアマスクを併用して、オープンな3次元セマンティックセマンティックセグメンテーションと視覚的グラウンドニングタスクに活用する。
競争ベースラインを上回り、最先端の手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-07-18T16:20:56Z) - VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model [76.02314305164595]
本研究は,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。
画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大言語モデル(MLLM)を利用する。
さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。
論文 参考訳(メタデータ) (2024-06-03T07:14:19Z) - Re-Thinking Inverse Graphics With Large Language Models [51.333105116400205]
逆グラフィックス -- イメージを物理変数に反転させ、レンダリングすると観察されたシーンの再現を可能にする -- は、コンピュータビジョンとグラフィックスにおいて根本的な課題である。
LLMを中心とした逆グラフフレームワークである逆グラフ大言語モデル(IG-LLM)を提案する。
我々は、凍結した事前学習されたビジュアルエンコーダと連続的な数値ヘッドを組み込んで、エンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2024-04-23T16:59:02Z) - Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion [35.25298023240529]
本稿では,未注釈の漫画画像のみに基づいて文字を識別し,話者名を予測するためのゼロショット手法を提案する。
本手法ではトレーニングデータやアノテーションは必要とせず,任意のコミックシリーズで使用することができる。
論文 参考訳(メタデータ) (2024-04-22T08:59:35Z) - Multimodal Transformer for Comics Text-Cloze [8.616858272810084]
テキストクローズ(Text-cloze)とは、隣接するパネルから漫画パネルで使用する正しいテキストを選択するタスクである。
リカレントニューラルネットワークに基づく従来の手法は、OCR精度の制限と固有のモデル制限のために、このタスクに苦労してきた。
テキストクローズに特化して設計された新しいマルチモーダル大規模言語モデル(Multimodal-LLM)を導入する。
論文 参考訳(メタデータ) (2024-03-06T14:11:45Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。