論文の概要: Visual Storytelling via Predicting Anchor Word Embeddings in the Stories
- arxiv url: http://arxiv.org/abs/2001.04541v1
- Date: Mon, 13 Jan 2020 21:47:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 23:23:36.849019
- Title: Visual Storytelling via Predicting Anchor Word Embeddings in the Stories
- Title(参考訳): 物語中のアンカーワード埋め込みを予測するビジュアルストーリーテリング
- Authors: Bowen Zhang, Hexiang Hu, Fei Sha
- Abstract要約: 主なアイデアは、画像からアンカー単語の埋め込みを予測し、埋め込みと画像特徴を併用して物語文を生成することである。
そこで本研究では,対象のアンカー単語の埋め込みとして,実話からランダムにサンプリングした名詞の埋め込みを用いて予測子を学習する。
画像列をナレーションするために、予測アンカーワード埋め込みと画像特徴をSeq2seqモデルへのジョイント入力として使用する。
- 参考スコア(独自算出の注目度): 30.7027618440961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a learning model for the task of visual storytelling. The main
idea is to predict anchor word embeddings from the images and use the
embeddings and the image features jointly to generate narrative sentences. We
use the embeddings of randomly sampled nouns from the groundtruth stories as
the target anchor word embeddings to learn the predictor. To narrate a sequence
of images, we use the predicted anchor word embeddings and the image features
as the joint input to a seq2seq model. As opposed to state-of-the-art methods,
the proposed model is simple in design, easy to optimize, and attains the best
results in most automatic evaluation metrics. In human evaluation, the method
also outperforms competing methods.
- Abstract(参考訳): 視覚的ストーリーテリングの課題に対する学習モデルを提案する。
主なアイデアは、画像からアンカー単語の埋め込みを予測し、埋め込みと画像特徴を併用して物語文を生成することである。
本研究では,対象単語の埋め込みとして,実話からランダムにサンプリングした名詞の埋め込みを用いて予測子を学習する。
画像のシーケンスをナレーションするために、予測されたアンカーワード埋め込みと画像特徴をseq2seqモデルへのジョイント入力として使用する。
最先端の手法とは対照的に,提案手法は設計がシンプルで,最適化が容易で,ほとんどの自動評価指標で最高の結果が得られる。
人間の評価では、競合する手法よりも優れている。
関連論文リスト
- CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - Visually grounded few-shot word learning in low-resource settings [23.826000011632917]
そこで本研究では,数組の単語イメージ対から新しい単語とその視覚的描写を学習する音声モデルを提案する。
提案手法では,与えられた単語イメージの例対を用いて,音声と画像の大規模なコレクションから教師なしの単語イメージトレーニングペアを抽出する。
この新しいモデルでは、既存の英語ベンチマークの以前のアプローチよりも少ないショットでより良いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-06-20T08:27:42Z) - WordStylist: Styled Verbatim Handwritten Text Generation with Latent
Diffusion Models [8.334487584550185]
単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。
提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。
提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
論文 参考訳(メタデータ) (2023-03-29T10:19:26Z) - Eliciting Knowledge from Pretrained Language Models for Prototypical
Prompt Verbalizer [12.596033546002321]
本稿では,事前学習された言語モデルから知識を抽出することに集中し,プロンプト学習のためのプロトタイプなプロンプト動詞化手法を提案する。
ゼロショット設定では、知識は事前訓練された言語モデルから手動で設計され、初期プロトタイプの埋め込みを形成する。
数ショット設定では、モデルは有意義で解釈可能なプロトタイプの埋め込みを学ぶように調整される。
論文 参考訳(メタデータ) (2022-01-14T12:04:37Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Toward Better Storylines with Sentence-Level Language Models [54.91921545103256]
本稿では,文章中の次の文を選択する文レベル言語モデルを提案する。
教師なしストーリークローゼタスクにおける最先端の精度によるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-05-11T16:54:19Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z) - Hide-and-Tell: Learning to Bridge Photo Streams for Visual Storytelling [86.42719129731907]
視覚的ギャップを埋めるストーリーラインを明示的に学習することを提案する。
私たちは、欠落した写真であっても、ネットワークをトレーニングして、完全なプラウティブルなストーリーを作り出す。
実験では,本手法とネットワーク設計がストーリーテリングに有効であることを示す。
論文 参考訳(メタデータ) (2020-02-03T14:22:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。