論文の概要: Adaptive Visual Conditioning for Semantic Consistency in Diffusion-Based Story Continuation
- arxiv url: http://arxiv.org/abs/2510.13787v1
- Date: Wed, 15 Oct 2025 17:43:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.79353
- Title: Adaptive Visual Conditioning for Semantic Consistency in Diffusion-Based Story Continuation
- Title(参考訳): 拡散型ストーリー継続における意味的一貫性に対する適応的視覚条件付け
- Authors: Seyed Mohammad Mousavi, Morteza Analoui,
- Abstract要約: 本稿では,拡散型ストーリー継続のためのフレームワークである (Adaptive Visual Conditioning) を紹介する。
以前のフレームから最もセマンティックに整合した画像を取得する。
これは、拡散過程の初期段階にのみ、事前視覚の影響を適応的に制限する。
強いベースラインに比べて、コヒーレンス、セマンティック一貫性、および視覚的忠実性に優れる。
- 参考スコア(独自算出の注目度): 0.07161783472741746
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Story continuation focuses on generating the next image in a narrative sequence so that it remains coherent with both the ongoing text description and the previously observed images. A central challenge in this setting lies in utilizing prior visual context effectively, while ensuring semantic alignment with the current textual input. In this work, we introduce AVC (Adaptive Visual Conditioning), a framework for diffusion-based story continuation. AVC employs the CLIP model to retrieve the most semantically aligned image from previous frames. Crucially, when no sufficiently relevant image is found, AVC adaptively restricts the influence of prior visuals to only the early stages of the diffusion process. This enables the model to exploit visual context when beneficial, while avoiding the injection of misleading or irrelevant information. Furthermore, we improve data quality by re-captioning a noisy dataset using large language models, thereby strengthening textual supervision and semantic alignment. Quantitative results and human evaluations demonstrate that AVC achieves superior coherence, semantic consistency, and visual fidelity compared to strong baselines, particularly in challenging cases where prior visuals conflict with the current input.
- Abstract(参考訳): 物語の継続は、進行中のテキスト記述と以前に観察された画像の両方に一貫性が保たれるように、物語のシーケンスで次の画像を生成することに焦点を当てる。
この設定における中心的な課題は、現在のテキスト入力とのセマンティックアライメントを確保しながら、事前の視覚的コンテキストを効果的に活用することである。
本稿では拡散型ストーリー継続のためのフレームワークであるAVC(Adaptive Visual Conditioning)を紹介する。
AVCはCLIPモデルを使用して、以前のフレームから最もセマンティックに整合したイメージを取得する。
重要なことに、十分な関連画像が見つからない場合、AVCは、拡散過程の初期段階にのみ、事前視覚の影響を適応的に制限する。
これにより、誤解を招く情報や無関係な情報の注入を避けながら、モデルが有益なときに視覚的コンテキストを利用することが可能になる。
さらに,大規模言語モデルを用いて雑音の多いデータセットを再カプセル化することにより,データ品質の向上を実現し,テキストの監督と意味的アライメントを強化する。
定量的な結果と人的評価により、AVCは、特に以前の視覚が現在の入力と矛盾する場合において、強いベースラインよりも優れたコヒーレンス、セマンティック一貫性、および視覚的忠実性を達成できることが示されている。
関連論文リスト
- Harnessing Textual Semantic Priors for Knowledge Transfer and Refinement in CLIP-Driven Continual Learning [19.210280671911278]
継続的な学習は、過去の知識を忘れずにタスクの流れから学習する能力をモデルに装備することを目的としている。
本稿では,テキスト先行のアンチフォッゲッティングと構造化の性質を利用した統合フレームワークを提案し,セマンティック・アウェア・ナレッジ・トランスファーを導く。
論文 参考訳(メタデータ) (2025-08-03T04:09:00Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - The Role of Data Curation in Image Captioning [26.61662352061468]
本論文は, サンプルの総数を増やすことなく, データセット中の難しいサンプルを積極的にキュレートすることによって, この方向性に寄与する。
BLIPとBEiT-3モデルを用いたFlickr30KとCOCOデータセットの実験は、これらのキュレーション手法が実際に改善された画像キャプションモデルをもたらすことを示した。
論文 参考訳(メタデータ) (2023-05-05T15:16:07Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Efficient Modeling of Future Context for Image Captioning [38.52032153180971]
非自己回帰画像キャプション(NAIC)は、マスク操作の修正による2面関係を利用することができる。
提案手法は,自動測定と人的評価の両方において,最先端のベースラインを超えている。
論文 参考訳(メタデータ) (2022-07-22T06:21:43Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。