Fugu-MT 論文翻訳(概要): Visual Storytelling via Predicting Anchor Word Embeddings in the Stories

論文の概要: Visual Storytelling via Predicting Anchor Word Embeddings in the Stories

arxiv url: http://arxiv.org/abs/2001.04541v1
Date: Mon, 13 Jan 2020 21:47:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-11 23:23:36.849019
Title: Visual Storytelling via Predicting Anchor Word Embeddings in the Stories
Title（参考訳）: 物語中のアンカーワード埋め込みを予測するビジュアルストーリーテリング
Authors: Bowen Zhang, Hexiang Hu, Fei Sha
Abstract要約: 主なアイデアは、画像からアンカー単語の埋め込みを予測し、埋め込みと画像特徴を併用して物語文を生成することである。そこで本研究では,対象のアンカー単語の埋め込みとして,実話からランダムにサンプリングした名詞の埋め込みを用いて予測子を学習する。画像列をナレーションするために、予測アンカーワード埋め込みと画像特徴をSeq2seqモデルへのジョイント入力として使用する。
参考スコア（独自算出の注目度）: 30.7027618440961
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a learning model for the task of visual storytelling. The main idea is to predict anchor word embeddings from the images and use the embeddings and the image features jointly to generate narrative sentences. We use the embeddings of randomly sampled nouns from the groundtruth stories as the target anchor word embeddings to learn the predictor. To narrate a sequence of images, we use the predicted anchor word embeddings and the image features as the joint input to a seq2seq model. As opposed to state-of-the-art methods, the proposed model is simple in design, easy to optimize, and attains the best results in most automatic evaluation metrics. In human evaluation, the method also outperforms competing methods.
Abstract（参考訳）: 視覚的ストーリーテリングの課題に対する学習モデルを提案する。主なアイデアは、画像からアンカー単語の埋め込みを予測し、埋め込みと画像特徴を併用して物語文を生成することである。本研究では,対象単語の埋め込みとして,実話からランダムにサンプリングした名詞の埋め込みを用いて予測子を学習する。画像のシーケンスをナレーションするために、予測されたアンカーワード埋め込みと画像特徴をseq2seqモデルへのジョイント入力として使用する。最先端の手法とは対照的に,提案手法は設計がシンプルで,最適化が容易で,ほとんどの自動評価指標で最高の結果が得られる。人間の評価では、競合する手法よりも優れている。

関連論文リスト

Self-Rewarding Large Vision-Language Models for Optimizing Prompts in Text-to-Image Generation [55.42794740244581]
本稿では,シンプルなユーザプロンプトをテキスト・ツー・イメージ・モデルに洗練されたプロンプトに変換するための新しいプロンプト最適化フレームワークを提案する。具体的には、ユーザプロンプトを書き換えるために大きな視覚言語モデル(LVLM)を使用し、同時にLVLMを報酬モデルとして使用し、最適化されたプロンプトによって生成された画像の美学とアライメントをスコアする。努力的な人間のフィードバックの代わりに、私たちはLVLMの以前の知識を利用して報酬、すなわちAIフィードバックを提供します。
論文参考訳（メタデータ） (2025-05-22T15:05:07Z)
Bridging the Gap: Aligning Text-to-Image Diffusion Models with Specific Feedback [5.415802995586328]
フィードバックからの学習は、テキスト間拡散モデルにおけるテキストプロンプトと画像の整合性を高めることが示されている。本稿では,3段階を含む特定の報酬目標を持つ効率的な微動法を提案する。このベンチマークによる実験結果から,本モデルはアライメントと忠実度の両方において,他のSOTA法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-11-28T09:56:28Z)
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-19T15:27:11Z)
FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文参考訳（メタデータ） (2024-08-09T02:16:37Z)
TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文参考訳（メタデータ） (2024-03-18T08:01:23Z)
Visually grounded few-shot word learning in low-resource settings [23.826000011632917]
そこで本研究では,数組の単語イメージ対から新しい単語とその視覚的描写を学習する音声モデルを提案する。提案手法では,与えられた単語イメージの例対を用いて,音声と画像の大規模なコレクションから教師なしの単語イメージトレーニングペアを抽出する。この新しいモデルでは、既存の英語ベンチマークの以前のアプローチよりも少ないショットでより良いパフォーマンスを実現している。
論文参考訳（メタデータ） (2023-06-20T08:27:42Z)
WordStylist: Styled Verbatim Handwritten Text Generation with Latent Diffusion Models [8.334487584550185]
単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
論文参考訳（メタデータ） (2023-03-29T10:19:26Z)
Eliciting Knowledge from Pretrained Language Models for Prototypical Prompt Verbalizer [12.596033546002321]
本稿では,事前学習された言語モデルから知識を抽出することに集中し,プロンプト学習のためのプロトタイプなプロンプト動詞化手法を提案する。ゼロショット設定では、知識は事前訓練された言語モデルから手動で設計され、初期プロトタイプの埋め込みを形成する。数ショット設定では、モデルは有意義で解釈可能なプロトタイプの埋め込みを学ぶように調整される。
論文参考訳（メタデータ） (2022-01-14T12:04:37Z)
DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文参考訳（メタデータ） (2021-12-02T18:59:32Z)
Generating More Pertinent Captions by Leveraging Semantics and Style on Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文参考訳（メタデータ） (2021-11-24T19:00:05Z)
Toward Better Storylines with Sentence-Level Language Models [54.91921545103256]
本稿では,文章中の次の文を選択する文レベル言語モデルを提案する。教師なしストーリークローゼタスクにおける最先端の精度によるアプローチの有効性を実証する。
論文参考訳（メタデータ） (2020-05-11T16:54:19Z)
Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文参考訳（メタデータ） (2020-02-27T16:45:25Z)
Hide-and-Tell: Learning to Bridge Photo Streams for Visual Storytelling [86.42719129731907]
視覚的ギャップを埋めるストーリーラインを明示的に学習することを提案する。私たちは、欠落した写真であっても、ネットワークをトレーニングして、完全なプラウティブルなストーリーを作り出す。実験では,本手法とネットワーク設計がストーリーテリングに有効であることを示す。
論文参考訳（メタデータ） (2020-02-03T14:22:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。