論文の概要: CPST: Comprehension-Preserving Style Transfer for Multi-Modal Narratives
- arxiv url: http://arxiv.org/abs/2312.08695v1
- Date: Thu, 14 Dec 2023 07:26:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 23:46:10.962315
- Title: CPST: Comprehension-Preserving Style Transfer for Multi-Modal Narratives
- Title(参考訳): cpst:マルチモーダルナラティブのための理解保存スタイルトランスファー
- Authors: Yi-Chun Chen, Arnav Jhala
- Abstract要約: 漫画や漫画などの静的な視覚的物語の中で、提示の面では異なる視覚的スタイルが存在する。
テキスト要素とメディア要素の両方のレイアウトは、物語コミュニケーションにおいても重要である。
このようなマルチモーダルドメインにおける理解保存スタイル転送(CPST)の概念を導入する。
- 参考スコア(独自算出の注目度): 1.320904960556043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the challenges of style transfer in multi-modal visual
narratives. Among static visual narratives such as comics and manga, there are
distinct visual styles in terms of presentation. They include style features
across multiple dimensions, such as panel layout, size, shape, and color. They
include both visual and text media elements. The layout of both text and media
elements is also significant in terms of narrative communication. The
sequential transitions between panels are where readers make inferences about
the narrative world. These feature differences provide an interesting challenge
for style transfer in which there are distinctions between the processing of
features for each modality. We introduce the notion of comprehension-preserving
style transfer (CPST) in such multi-modal domains. CPST requires not only
traditional metrics of style transfer but also metrics of narrative
comprehension. To spur further research in this area, we present an annotated
dataset of comics and manga and an initial set of algorithms that utilize
separate style transfer modules for the visual, textual, and layout parameters.
To test whether the style transfer preserves narrative semantics, we evaluate
this algorithm through visual story cloze tests inspired by work in
computational cognition of narrative systems. Understanding the connection
between style and narrative semantics provides insight for applications ranging
from informational brochure designs to data storytelling.
- Abstract(参考訳): マルチモーダルな視覚的物語におけるスタイル伝達の課題について検討する。
漫画や漫画のような静的な視覚的な物語の中には、プレゼンテーションの観点で異なるビジュアルスタイルがある。
パネルレイアウト、サイズ、形状、色など、複数のディメンションにまたがるスタイル機能が含まれている。
視覚的要素とテキストメディア要素の両方が含まれる。
テキスト要素とメディア要素の両方のレイアウトは、物語コミュニケーションにおいても重要である。
パネル間のシーケンシャルな遷移は、読者が物語の世界について推測する場である。
これらの特徴の違いは、各モダリティに対する特徴の処理に違いがあるスタイル転送に興味深い課題をもたらす。
このようなマルチモーダルドメインにおける理解保存スタイル転送(CPST)の概念を導入する。
CPSTはスタイル伝達の伝統的なメトリクスだけでなく、物語理解のメトリクスも必要としている。
この領域のさらなる研究を促進するために、漫画と漫画の注釈付きデータセットと、視覚的、テキスト的、レイアウトパラメータの分離したスタイル転送モジュールを利用するアルゴリズムの初期セットを提示する。
スタイル伝達が物語のセマンティクスを保存するかどうかを検証するために,このアルゴリズムを,物語システムの計算認知の研究に触発された視覚的ストーリークローゼテストにより評価する。
スタイルと物語のセマンティクスの関連を理解することは、情報ブローフレットデザインからデータストーリーテリングまで幅広い応用の洞察を与える。
関連論文リスト
- Panel Transitions for Genre Analysis in Visual Narratives [1.320904960556043]
本稿では,漫画や漫画風のビジュアル・ナラティブに基づくジャンルのマルチモーダル分析を行うための新しいアプローチを提案する。
我々は、主観的ラベルをモデル化する際の既存の計算手法の限界と課題を強調した。
論文 参考訳(メタデータ) (2023-12-14T08:05:09Z) - A Customizable Generator for Comic-Style Visual Narrative [1.320904960556043]
本稿では,漫画作者のイディオムを取り入れた理論にインスパイアされたビジュアル・ナラティブ・ジェネレータを提案する。
ジェネレータは、パネル構成、オブジェクト位置、パネル遷移、物語要素から階層間のシーケンシャルな意思決定を通じてコミックを生成する。
論文 参考訳(メタデータ) (2023-12-14T03:46:30Z) - Don't lose the message while paraphrasing: A study on content preserving
style transfer [61.38460184163704]
スタイル伝達研究の現実的な応用には,コンテンツ保存が不可欠である。
形式性伝達領域の例において、様々なスタイル転送モデルを比較する。
我々は,スタイル伝達のための最先端技術について,精密な比較研究を行っている。
論文 参考訳(メタデータ) (2023-08-17T15:41:08Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Conversation Style Transfer using Few-Shot Learning [56.43383396058639]
本稿では,会話スタイルの伝達を数ショットの学習問題として紹介する。
そこで本研究では,スタイルフリー対話による課題をピボットとして解くための,コンテキスト内学習手法を提案する。
会話スタイルの転送は下流のタスクにも役立ちます。
論文 参考訳(メタデータ) (2023-02-16T15:27:00Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - StoryTrans: Non-Parallel Story Author-Style Transfer with Discourse
Representations and Content Enhancing [73.81778485157234]
長文は通常、文よりも談話構造のような複雑な著者の言語的嗜好を含んでいる。
我々は、入力されたストーリーを特定の著者スタイルに転送する必要があるノン並列ストーリー作者スタイル転送のタスクを定式化する。
モデルが自動エンコーダに退化することを防ぐために,学習した談話表現からスタイル的特徴を引き離すための追加の学習目標を用いる。
論文 参考訳(メタデータ) (2022-08-29T08:47:49Z) - From Theories on Styles to their Transfer in Text: Bridging the Gap with
a Hierarchical Survey [10.822011920177408]
スタイル転送は、既存のテキストを書き換え、望ましいスタイル特性を示すパラフレーズを作成することを目的としている。
少数の調査では、この分野の方法論的な概要が示されているが、研究者が特定のスタイルにフォーカスするのを支援していない。
それらを階層に整理し、それぞれの定義の課題を強調し、現在の研究状況のギャップを指摘します。
論文 参考訳(メタデータ) (2021-10-29T15:53:06Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。