論文の概要: Knowledge-enriched Attention Network with Group-wise Semantic for Visual
Storytelling
- arxiv url: http://arxiv.org/abs/2203.05346v1
- Date: Thu, 10 Mar 2022 12:55:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 13:47:20.837192
- Title: Knowledge-enriched Attention Network with Group-wise Semantic for Visual
Storytelling
- Title(参考訳): グループ別セマンティクスを用いたビジュアルストーリーテリングのための知識強化型アテンションネットワーク
- Authors: Tengpeng Li, Hanli Wang, Bin He, Chang Wen Chen
- Abstract要約: 視覚的なストーリーテリングは、関連した画像のグループから物語の多文を含む想像的で一貫性のあるストーリーを生成することを目的としている。
既存の手法では、画像以外の暗黙的な情報を探索することができないため、画像に基づくコンテンツの直接的および厳密な記述を生成することが多い。
これらの問題に対処するために,グループワイド・セマンティック・モデルを用いた新しい知識強化型アテンション・ネットワークを提案する。
- 参考スコア(独自算出の注目度): 39.59158974352266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a technically challenging topic, visual storytelling aims at generating an
imaginary and coherent story with narrative multi-sentences from a group of
relevant images. Existing methods often generate direct and rigid descriptions
of apparent image-based contents, because they are not capable of exploring
implicit information beyond images. Hence, these schemes could not capture
consistent dependencies from holistic representation, impairing the generation
of reasonable and fluent story. To address these problems, a novel
knowledge-enriched attention network with group-wise semantic model is
proposed. Three main novel components are designed and supported by substantial
experiments to reveal practical advantages. First, a knowledge-enriched
attention network is designed to extract implicit concepts from external
knowledge system, and these concepts are followed by a cascade cross-modal
attention mechanism to characterize imaginative and concrete representations.
Second, a group-wise semantic module with second-order pooling is developed to
explore the globally consistent guidance. Third, a unified one-stage story
generation model with encoder-decoder structure is proposed to simultaneously
train and infer the knowledge-enriched attention network, group-wise semantic
module and multi-modal story generation decoder in an end-to-end fashion.
Substantial experiments on the popular Visual Storytelling dataset with both
objective and subjective evaluation metrics demonstrate the superior
performance of the proposed scheme as compared with other state-of-the-art
methods.
- Abstract(参考訳): 技術的に難しいトピックとして、ビジュアルストーリーテリングは、関連するイメージのグループから、物語の多元性を持つ想像力とコヒーレントなストーリーを生成することを目的としている。
既存の手法では、画像以外の暗黙的な情報を探索できないため、画像に基づくコンテンツの直接的および厳密な記述を生成することが多い。
したがって、これらのスキームは全体論的な表現から一貫した依存関係を捉えることができず、合理的で流動的な物語の生成を妨げた。
これらの問題に対処するために,グループワイド・セマンティック・モデルを用いた新しい知識豊かな注意ネットワークを提案する。
3つの新しいコンポーネントは、実用的な利点を明らかにするために、かなりの実験によって設計、支援されている。
まず、知識に富んだ注意ネットワークは、外部知識システムから暗黙的な概念を抽出するために設計され、これらの概念は、想像的、具体的表現を特徴づけるカスケード横断的な注意機構が続く。
第二に,二階プーリングを用いたグループ指向のセマンティクスモジュールを開発し,グローバルに一貫したガイダンスを探索する。
第3に,エンコーダ・デコーダ構造を持つ一段階のストーリー生成モデルを提案し,エンド・ツー・エンド方式で知識に富んだ注目ネットワーク,グループ・ワイド・セマンティック・モジュール,マルチモーダル・ストーリー生成デコーダを同時に訓練・推論する。
主観的評価指標と主観的評価指標を併用した人気のあるビジュアルストーリーテリングデータセットの実体実験により,提案手法が他の最先端手法と比較して優れた性能を示した。
関連論文リスト
- Context-aware Visual Storytelling with Visual Prefix Tuning and Contrastive Learning [2.401993998791928]
本稿では、モダリティを接続するための軽量な視覚言語マッピングネットワークを訓練するフレームワークを提案する。
視覚的関連性やストーリー情報性も向上するマルチモーダルなコントラスト目標を提案する。
論文 参考訳(メタデータ) (2024-08-12T16:15:32Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Hierarchical Aligned Multimodal Learning for NER on Tweet Posts [12.632808712127291]
マルチモーダルなエンティティ認識(MNER)が注目されている。
画像とテキストのシーケンスを動的に調整する新しい手法を提案する。
2つのオープンデータセットで実験を行い、その結果と詳細な分析により、我々のモデルの利点を実証した。
論文 参考訳(メタデータ) (2023-05-15T06:14:36Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Constellation: Learning relational abstractions over objects for
compositional imagination [64.99658940906917]
静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを紹介する。
この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。
論文 参考訳(メタデータ) (2021-07-23T11:59:40Z) - Bowtie Networks: Generative Modeling for Joint Few-Shot Recognition and
Novel-View Synthesis [39.53519330457627]
本稿では,複数ショット認識と新規ビュー合成という新たな課題を提案する。
我々は、オブジェクト分類器を同時に学習し、新しい視点からそのタイプのオブジェクトの画像を生成することを目的としている。
生成モデルと識別モデルとの相互作用と協調に焦点を当てる。
論文 参考訳(メタデータ) (2020-08-16T19:40:56Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。