論文の概要: Dense Multitask Learning to Reconfigure Comics
- arxiv url: http://arxiv.org/abs/2307.08071v1
- Date: Sun, 16 Jul 2023 15:10:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 15:52:43.825846
- Title: Dense Multitask Learning to Reconfigure Comics
- Title(参考訳): 複雑なマルチタスク学習によるコミックの再構成
- Authors: Deblina Bhattacharjee, Sabine S\"usstrunk and Mathieu Salzmann
- Abstract要約: 漫画パネルの密集予測を実現するために,MultiTask Learning (MTL) モデルを開発した。
本手法は,漫画パネルにおける意味単位と3D概念の同定に有効である。
- 参考スコア(独自算出の注目度): 63.367664789203936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we develop a MultiTask Learning (MTL) model to achieve dense
predictions for comics panels to, in turn, facilitate the transfer of comics
from one publication channel to another by assisting authors in the task of
reconfiguring their narratives. Our MTL method can successfully identify the
semantic units as well as the embedded notion of 3D in comic panels. This is a
significantly challenging problem because comics comprise disparate artistic
styles, illustrations, layouts, and object scales that depend on the authors
creative process. Typically, dense image-based prediction techniques require a
large corpus of data. Finding an automated solution for dense prediction in the
comics domain, therefore, becomes more difficult with the lack of ground-truth
dense annotations for the comics images. To address these challenges, we
develop the following solutions: 1) we leverage a commonly-used strategy known
as unsupervised image-to-image translation, which allows us to utilize a large
corpus of real-world annotations; 2) we utilize the results of the translations
to develop our multitasking approach that is based on a vision transformer
backbone and a domain transferable attention module; 3) we study the
feasibility of integrating our MTL dense-prediction method with an existing
retargeting method, thereby reconfiguring comics.
- Abstract(参考訳): 本稿では,漫画パネルの高密度な予測を実現するためのMultiTask Learning (MTL) モデルを開発した。
MTL法は,マンガパネルに埋め込まれた3Dの概念だけでなく,意味単位の同定にも有効である。
コミックは異なる芸術スタイル、イラスト、レイアウト、そして作者の創造過程に依存するオブジェクトスケールで構成されているため、これは非常に難しい問題である。
通常、高密度画像ベースの予測技術は大量のデータを必要とする。
漫画領域における密集予測のための自動解を見つけることは、漫画画像に対する地味な密集アノテーションの欠如により、より困難になる。
これらの課題に対処するために、以下のソリューションを開発します。
1) 実世界のアノテーションの大規模なコーパスを利用することが可能な,教師なし画像から画像への変換という,一般的な戦略を活用する。
2)視覚変換器のバックボーンとドメイン転送可能なアテンションモジュールをベースとしたマルチタスク手法の開発に,翻訳結果を活用する。
3) MTL高密度予測手法を既存の再ターゲティング手法に統合し,コミックを再構成する可能性を検討する。
関連論文リスト
- Multimodal Transformer for Comics Text-Cloze [8.616858272810084]
テキストクローズ(Text-cloze)とは、隣接するパネルから漫画パネルで使用する正しいテキストを選択するタスクである。
リカレントニューラルネットワークに基づく従来の手法は、OCR精度の制限と固有のモデル制限のために、このタスクに苦労してきた。
テキストクローズに特化して設計された新しいマルチモーダル大規模言語モデル(Multimodal-LLM)を導入する。
論文 参考訳(メタデータ) (2024-03-06T14:11:45Z) - Comics for Everyone: Generating Accessible Text Descriptions for Comic
Strips [0.0]
我々は、視覚障害者のコミュニティにアクセス可能なコミックストリップの自然言語記述を作成します。
まず、コンピュータビジョン技術を用いて、コミック画像のパネル、文字、テキストに関する情報を抽出する。
我々は,人間の専門家が注釈付けした漫画のコレクション上で本手法を試行し,定量的および定性的な指標を用いてその性能を計測する。
論文 参考訳(メタデータ) (2023-10-01T15:13:48Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Adapt and Align to Improve Zero-Shot Sketch-Based Image Retrieval [85.39613457282107]
スケッチに基づく画像検索のクロスドメイン性は困難である。
重要な課題に対処する効果的なAdaptとAlignのアプローチを提案する。
ゼロショットシナリオにおける画像テキスト基盤モデル(例えばCLIP)の最近の進歩に触発されて、学習したイメージの埋め込みを、より意味的なテキスト埋め込みと明確に整合させ、見知らぬクラスから見つからないクラスへの所望の知識伝達を実現する。
論文 参考訳(メタデータ) (2023-05-09T03:10:15Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - LatteGAN: Visually Guided Language Attention for Multi-Turn
Text-Conditioned Image Manipulation [0.0]
視覚誘導言語注意GAN(LatteGAN)と呼ばれる新しいアーキテクチャを提案する。
LatteGANはジェネレータの微細なテキスト表現を抽出し、フェイク画像や実画像のグローバルな表現とローカルな表現の両方を識別する。
2つの異なるMTIMデータセットであるCoDrawとi-CLEVRの実験は、提案モデルの最先端性能を実証している。
論文 参考訳(メタデータ) (2021-12-28T03:50:03Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z) - Estimating Image Depth in the Comics Domain [59.275961069130304]
市販の教師なし画像を用いて、漫画の画像を自然なものに翻訳する画像変換を行う。
次に、注意誘導単眼深度推定器を用いて深度を推定する。
本モデルでは,コミックパネル内のテキストと画像の区別を学習し,奥行き推定におけるテキストベースアーティファクトの低減を図る。
論文 参考訳(メタデータ) (2021-10-07T15:54:27Z) - Multi-Density Sketch-to-Image Translation Network [65.4028451067947]
入力スケッチは、粗い物体の輪郭からマイクロ構造まで幅広い範囲をカバーすることができる。
本手法は,顔の編集,マルチモーダルなスケッチ・ツー・フォト変換,アニメのカラー化など,様々な用途のデータセットで検証されている。
論文 参考訳(メタデータ) (2020-06-18T16:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。