論文の概要: Reading Between the Lines: Exploring Infilling in Visual Narratives
- arxiv url: http://arxiv.org/abs/2010.13944v1
- Date: Mon, 26 Oct 2020 23:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 19:06:48.068789
- Title: Reading Between the Lines: Exploring Infilling in Visual Narratives
- Title(参考訳): 行間を読む:ビジュアル・ナラティブにおけるインフィルディングの探索
- Authors: Khyathi Raghavi Chandu, Ruo-Ping Dong, Alan Black
- Abstract要約: 46,200のプロシージャと約340kのペア画像を持つViPTデータセットを新たに提案する。
ビジュアルストーリーテリングの最先端よりも高い手順で,METEORの27.51のスコアを確定的に示す。
- 参考スコア(独自算出の注目度): 5.28005598366543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating long form narratives such as stories and procedures from multiple
modalities has been a long standing dream for artificial intelligence. In this
regard, there is often crucial subtext that is derived from the surrounding
contexts. The general seq2seq training methods render the models shorthanded
while attempting to bridge the gap between these neighbouring contexts. In this
paper, we tackle this problem by using \textit{infilling} techniques involving
prediction of missing steps in a narrative while generating textual
descriptions from a sequence of images. We also present a new large scale
\textit{visual procedure telling} (ViPT) dataset with a total of 46,200
procedures and around 340k pairwise images and textual descriptions that is
rich in such contextual dependencies. Generating steps using infilling
technique demonstrates the effectiveness in visual procedures with more
coherent texts. We conclusively show a METEOR score of 27.51 on procedures
which is higher than the state-of-the-art on visual storytelling. We also
demonstrate the effects of interposing new text with missing images during
inference. The code and the dataset will be publicly available at
https://visual-narratives.github.io/Visual-Narratives/.
- Abstract(参考訳): 複数のモダリティから物語や手順のような長い形態の物語を生み出すことは、人工知能にとって長年の夢だった。
この点に関して、周囲の文脈から派生した重要なサブテキストがしばしば存在する。
一般的なseq2seqトレーニング手法は、近隣のコンテキスト間のギャップを埋めようとしながら、モデルをショートハンドでレンダリングする。
本稿では,画像列からテキスト記述を生成しながら,物語中のステップの欠落を予測できる手法である \textit{infilling} を用いてこの問題に取り組む。
また,46,200のプロシージャと約340kのペアワイズ画像と,そのような文脈依存に富むテキスト記述を備えた,新たな大規模データ集合 \textit{visual procedure telling} (vipt) を提案する。
インフィルディング技術を用いたステップ生成は、よりコヒーレントなテキストを用いた視覚的手順の有効性を示す。
ビジュアルストーリーテリングの最先端よりも高い手順で,METEORの27.51のスコアを確定的に示す。
また,画像の欠落による新たなテキストの補間効果も示す。
コードとデータセットはhttps://visual-narratives.github.io/Visual-Narratives/で公開される。
関連論文リスト
- Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling [81.69474860607542]
画像とテキストの両方にインスタンスレベルのアノテーションを追加する大規模データセットであるOpenstory++を提示する。
また、長いマルチモーダルコンテキストが提供される際に、画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchについても紹介する。
論文 参考訳(メタデータ) (2024-08-07T11:20:37Z) - Analogist: Out-of-the-box Visual In-Context Learning with Image Diffusion Model [25.47573567479831]
本稿では,視覚とテキストの両方のプロンプト技術を利用した新しい推論に基づく視覚的ICL手法を提案する。
提案手法はアウト・オブ・ボックスであり,微調整や最適化は不要である。
論文 参考訳(メタデータ) (2024-05-16T17:59:21Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - COSMO: COntrastive Streamlined MultimOdal Model with Interleaved
Pre-Training [119.03392147066093]
近年の自己回帰視覚言語モデルは, テキスト生成タスクでは優れているが, アライメントタスクでは課題に直面している。
テキスト生成モデルに対照的な損失を導入し,言語モデルを専用テキスト処理と適応型マルチモーダルデータ処理コンポーネントに分割する。
このギャップを埋めるために、この研究は、包括的なキャプションを備えた最初のインターリーブ付きビデオテキストデータセットであるVideoDatasetNameを導入した。
論文 参考訳(メタデータ) (2024-01-01T18:58:42Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Image Captioning with Multi-Context Synthetic Data [16.961112970612447]
大規模なモデルは高品質な画像やテキストを作成するのに優れています。
マルチコンテキストデータ生成を導入した革新的なパイプラインを提案する。
我々のモデルは、このプロセスを通じて構築された合成画像テキストペアに特化して訓練されている。
論文 参考訳(メタデータ) (2023-05-29T13:18:59Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。