論文の概要: Text-Only Training for Visual Storytelling
- arxiv url: http://arxiv.org/abs/2308.08881v1
- Date: Thu, 17 Aug 2023 09:32:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 17:14:36.229918
- Title: Text-Only Training for Visual Storytelling
- Title(参考訳): ビジュアルストーリーテリングのためのテキストオンリートレーニング
- Authors: Yuechen Wang, Wengang Zhou, Zhenbo Lu, Houqiang Li
- Abstract要約: 視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 107.19873669536523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual storytelling aims to generate a narrative based on a sequence of
images, necessitating both vision-language alignment and coherent story
generation. Most existing solutions predominantly depend on paired image-text
training data, which can be costly to collect and challenging to scale. To
address this, we formulate visual storytelling as a visual-conditioned story
generation problem and propose a text-only training method that separates the
learning of cross-modality alignment and story generation. Our approach
specifically leverages the cross-modality pre-trained CLIP model to integrate
visual control into a story generator, trained exclusively on text data.
Moreover, we devise a training-free visual condition planner that accounts for
the temporal structure of the input image sequence while balancing global and
local visual content. The distinctive advantage of requiring only text data for
training enables our method to learn from external text story data, enhancing
the generalization capability of visual storytelling. We conduct extensive
experiments on the VIST benchmark, showcasing the effectiveness of our approach
in both in-domain and cross-domain settings. Further evaluations on expression
diversity and human assessment underscore the superiority of our method in
terms of informativeness and robustness.
- Abstract(参考訳): ビジュアルストーリーテリングは、視覚言語アライメントとコヒーレントなストーリー生成の両方を必要とする一連の画像に基づいて物語を生成することを目的としている。
既存のソリューションのほとんどが、主にペアのイメージテキストトレーニングデータに依存しているため、収集にコストがかかり、スケールアップが難しくなります。
そこで本研究では,視覚条件付きストーリー生成問題としてビジュアルストーリーテリングを定式化し,クロスモダリティアライメントとストーリー生成の学習を分離したテキストのみのトレーニング手法を提案する。
本手法では,テキストデータのみにトレーニングされたストーリジェネレータに視覚制御を統合するために,モダリティ事前学習型CLIPモデルを特に活用する。
さらに,大域的および局所的な視覚コンテンツのバランスを保ちつつ,入力画像シーケンスの時間構造を考慮したトレーニングフリーな視覚条件プランナーを開発した。
学習にテキストデータのみを必要とするという特筆すべき利点は,外部のテキストデータから学習し,ビジュアルストーリーテリングの一般化能力を高めることである。
VISTベンチマークで広範な実験を行い、ドメイン内およびドメイン間の両方でアプローチの有効性を示す。
表現の多様性と人的評価に関するさらなる評価は,情報性と頑健性の観点から,本手法の優位性を強調している。
関連論文リスト
- Context-aware Visual Storytelling with Visual Prefix Tuning and Contrastive Learning [2.401993998791928]
本稿では、モダリティを接続するための軽量な視覚言語マッピングネットワークを訓練するフレームワークを提案する。
視覚的関連性やストーリー情報性も向上するマルチモーダルなコントラスト目標を提案する。
論文 参考訳(メタデータ) (2024-08-12T16:15:32Z) - LEGO: Self-Supervised Representation Learning for Scene Text Images [32.21085469233465]
本研究では,シーンテキスト画像に対する局所的・グローバル的順序対応型自己教師型表現学習手法を提案する。
単語を学習する人間の認知プロセスにインスパイアされて、LEGOのシーケンシャル、セマンティック、構造的特徴をモデル化するための3つの新しいプレテキストタスクを提案する。
LEGO認識器は、6つのベンチマーク上での最先端のシーンテキスト認識方法よりも優れた、あるいは同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-04T14:07:14Z) - Analogist: Out-of-the-box Visual In-Context Learning with Image Diffusion Model [25.47573567479831]
本稿では,視覚とテキストの両方のプロンプト技術を利用した新しい推論に基づく視覚的ICL手法を提案する。
提案手法はアウト・オブ・ボックスであり,微調整や最適化は不要である。
論文 参考訳(メタデータ) (2024-05-16T17:59:21Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。
我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。
複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。
この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文 参考訳(メタデータ) (2023-06-15T12:29:42Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - Grounding Language Models to Images for Multimodal Inputs and Outputs [89.30027812161686]
本稿では,事前学習したテキストのみの言語モデルを視覚領域に最適化する効率的な手法を提案する。
任意にインターリーブされた画像とテキストデータを処理し、検索した画像とインターリーブされたテキストを生成する。
論文 参考訳(メタデータ) (2023-01-31T18:33:44Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。