論文の概要: CogCartoon: Towards Practical Story Visualization
- arxiv url: http://arxiv.org/abs/2312.10718v1
- Date: Sun, 17 Dec 2023 13:39:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 14:58:38.613114
- Title: CogCartoon: Towards Practical Story Visualization
- Title(参考訳): CogCartoon: 現実的なストーリ可視化を目指して
- Authors: Zhongyang Zhu and Jie Tang
- Abstract要約: 本稿では,事前学習した拡散モデルに基づく現実的なストーリー可視化手法であるCogCartoonを紹介する。
データとストレージへの依存を軽減するため,特定文字をコンパクトな316KBプラグインとして表現できる文字生成の革新的な戦略を提案する。
- 参考スコア(独自算出の注目度): 13.305315545640378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The state-of-the-art methods for story visualization demonstrate a
significant demand for training data and storage, as well as limited
flexibility in story presentation, thereby rendering them impractical for
real-world applications. We introduce CogCartoon, a practical story
visualization method based on pre-trained diffusion models. To alleviate
dependence on data and storage, we propose an innovative strategy of
character-plugin generation that can represent a specific character as a
compact 316 KB plugin by using a few training samples. To facilitate enhanced
flexibility, we employ a strategy of plugin-guided and layout-guided inference,
enabling users to seamlessly incorporate new characters and custom layouts into
the generated image results at their convenience. We have conducted
comprehensive qualitative and quantitative studies, providing compelling
evidence for the superiority of CogCartoon over existing methodologies.
Moreover, CogCartoon demonstrates its power in tackling challenging tasks,
including long story visualization and realistic style story visualization.
- Abstract(参考訳): ストーリービジュアライゼーションの最先端の手法は、データとストレージのトレーニングと、ストーリープレゼンテーションの柔軟性の制限という大きな需要を示しており、現実のアプリケーションでは実用的ではない。
本稿では,事前学習した拡散モデルに基づく現実的なストーリー可視化手法であるCogCartoonを紹介する。
データとストレージへの依存を軽減するため、いくつかのトレーニングサンプルを用いて、特定の文字をコンパクトな316KBプラグインとして表現できる文字プラグ生成の革新的な戦略を提案する。
柔軟性を高めるため,プラグインガイドとレイアウトガイドによる推論手法を採用し,ユーザが生成した画像結果に新しい文字やカスタムレイアウトをシームレスに組み込むことができるようにした。
我々は,既存の手法よりもCagCartoonの方が優れていることを示す証拠として,総合的な質的および定量的研究を行った。
さらに、CogCartoonは、長いストーリーの可視化や現実的なスタイルのストーリーの可視化など、困難なタスクに対処する能力を示している。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Deep ContourFlow: Advancing Active Contours with Deep Learning [3.9948520633731026]
画像分割のための教師なしとワンショットの両方のアプローチのためのフレームワークを提案する。
広範なラベル付きトレーニングデータを必要とせずに、複雑なオブジェクト境界をキャプチャできる。
これは特に、注釈の不足に直面している分野である歴史学において必要である。
論文 参考訳(メタデータ) (2024-07-15T13:12:34Z) - Evolving Storytelling: Benchmarks and Methods for New Character Customization with Diffusion Models [79.21968152209193]
ニューエピソード・ベンチマークを導入し、新しいキャラクターで新しいストーリーを生成する際の生成モデルの適応性を評価する。
EpicEvoは,新しいキャラクタをシームレスに統合した単一ストーリーで,拡散に基づくビジュアルストーリー生成モデルをカスタマイズする手法である。
論文 参考訳(メタデータ) (2024-05-20T07:54:03Z) - Generalized User Representations for Transfer Learning [6.953653891411339]
本稿では,大規模レコメンデーションシステムにおけるユーザ表現のための新しいフレームワークを提案する。
提案手法は,表現学習と伝達学習を組み合わせた2段階の手法を用いる。
提案するフレームワークは,代替手法と比較して,インフラコストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-03-01T15:05:21Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Exploring Large Language Model for Graph Data Understanding in Online
Job Recommendations [63.19448893196642]
本稿では,大規模言語モデルが提供するリッチな文脈情報と意味表現を利用して行動グラフを解析する新しいフレームワークを提案する。
この機能を利用することで、個々のユーザに対してパーソナライズされた、正確なジョブレコメンデーションが可能になる。
論文 参考訳(メタデータ) (2023-07-10T11:29:41Z) - Cross-view Graph Contrastive Representation Learning on Partially
Aligned Multi-view Data [52.491074276133325]
マルチビュー表現学習は、過去数十年間で急速に発展し、多くの分野に応用されてきた。
本稿では,多視点情報を統合してデータアライメントを行い,潜在表現を学習する,新しいクロスビューグラフコントラスト学習フレームワークを提案する。
複数の実データを用いて実験を行い,クラスタリングおよび分類作業における提案手法の有効性を示した。
論文 参考訳(メタデータ) (2022-11-08T09:19:32Z) - Quantifying Challenges in the Application of Graph Representation
Learning [0.0]
私たちは、一般的な埋め込みアプローチのセットに対して、アプリケーション指向の視点を提供します。
実世界のグラフ特性に関する表現力を評価する。
GRLアプローチは現実のシナリオでは定義が困難であることが示唆された。
論文 参考訳(メタデータ) (2020-06-18T03:19:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。