論文の概要: Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling
- arxiv url: http://arxiv.org/abs/2008.04504v1
- Date: Tue, 11 Aug 2020 03:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 10:37:02.757412
- Title: Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling
- Title(参考訳): Few-Shot Visual Storytellingのためのトピック適応とプロトタイプ符号化
- Authors: Jiacheng Li, Siliang Tang, Juncheng Li, Jun Xiao, Fei Wu, Shiliang Pu,
Yueting Zhuang
- Abstract要約: トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
- 参考スコア(独自算出の注目度): 81.33107307509718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Storytelling~(VIST) is a task to tell a narrative story about a
certain topic according to the given photo stream. The existing studies focus
on designing complex models, which rely on a huge amount of human-annotated
data. However, the annotation of VIST is extremely costly and many topics
cannot be covered in the training dataset due to the long-tail topic
distribution. In this paper, we focus on enhancing the generalization ability
of the VIST model by considering the few-shot setting. Inspired by the way
humans tell a story, we propose a topic adaptive storyteller to model the
ability of inter-topic generalization. In practice, we apply the gradient-based
meta-learning algorithm on multi-modal seq2seq models to endow the model the
ability to adapt quickly from topic to topic. Besides, We further propose a
prototype encoding structure to model the ability of intra-topic derivation.
Specifically, we encode and restore the few training story text to serve as a
reference to guide the generation at inference time. Experimental results show
that topic adaptation and prototype encoding structure mutually bring benefit
to the few-shot model on BLEU and METEOR metric. The further case study shows
that the stories generated after few-shot adaptation are more relative and
expressive.
- Abstract(参考訳): ビジュアルストーリーテリング〜(VIST)は、与えられた写真ストリームに従って特定のトピックについて物語を伝えるタスクである。
既存の研究は、大量の人間の注釈データに依存する複雑なモデルの設計に焦点を当てている。
しかしながら、VISTのアノテーションは非常に高価であり、長いトピック分布のため、トレーニングデータセットでは多くのトピックがカバーできない。
本稿では,数発設定を考慮し,vistモデルの一般化能力の向上に着目する。
そこで我々は,話題間一般化の能力をモデル化するための話題適応型ストーリーテラを提案する。
実際に,マルチモーダルセク2セックモデルに勾配に基づくメタ学習アルゴリズムを適用し,トピックからトピックへすばやく適応する能力をモデルに与える。
さらに,トピック内導出能力をモデル化するプロトタイプの符号化構造も提案する。
具体的には、推論時に生成を導くための参照として、少数のトレーニングストーリーテキストをエンコードし、復元する。
実験結果から,トピック適応とプロトタイプ符号化構造がBLEUおよびMETEOR測定値の少数ショットモデルに相互に利益をもたらすことが示された。
さらなるケーススタディでは、数回の適応後に生成されたストーリーはより相対的で表現豊かであることが示されている。
関連論文リスト
- TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - Controllable Topic-Focused Abstractive Summarization [57.8015120583044]
制御された抽象的な要約は、特定の側面をカバーするために、ソース記事の凝縮したバージョンを作成することに焦点を当てる。
本稿では,トピックに着目した要約を生成可能なトランスフォーマーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-11-12T03:51:38Z) - Let the Pretrained Language Models "Imagine" for Short Texts Topic
Modeling [29.87929724277381]
短いテキストでは、共起情報は最小限であり、結果として文書表現の特徴が分散する。
既存のトピックモデル(確率的あるいは神経的)は、ほとんどの場合、一貫性のあるトピックを生成するためにパターンのマイニングに失敗します。
既存の事前学習言語モデル(PLM)を用いて、短いテキストを長いシーケンスに拡張する。
論文 参考訳(メタデータ) (2023-10-24T00:23:30Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - TopNet: Learning from Neural Topic Model to Generate Long Stories [43.5564336855688]
Long Story Generation (LSG) は自然言語処理における目標の1つである。
短い入力を補完する高品質なスケルトン語を得るために,emphTopNetを提案する。
提案手法は骨格語選択に極めて有効であり, 自動評価と人的評価の両方において最先端のモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-12-14T09:47:53Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Unsupervised Graph-based Topic Modeling from Video Transcriptions [5.210353244951637]
ニューラルワード埋め込みとグラフベースのクラスタリング手法を用いて,映像の書き起こしに関するトピック抽出器を開発した。
実生活マルチモーダルデータセット MuSe-CaR の実験結果から,本手法は一貫性と意味のあるトピックを抽出することを示した。
論文 参考訳(メタデータ) (2021-05-04T12:48:17Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。