論文の概要: Hybrid Reasoning Network for Video-based Commonsense Captioning
- arxiv url: http://arxiv.org/abs/2108.02365v1
- Date: Thu, 5 Aug 2021 04:55:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-06 14:57:33.399066
- Title: Hybrid Reasoning Network for Video-based Commonsense Captioning
- Title(参考訳): ビデオベースコモンセンスキャプションのためのハイブリッド推論ネットワーク
- Authors: Weijiang Yu, Jian Liang, Lei Ji, Lu Li, Yuejian Fang, Nong Xiao, Nan
Duan
- Abstract要約: ビデオベースのコモンセンスキャプションのタスクは、イベントワイドキャプションを生成し、複数のコモンセンス記述を提供することを目的としている。
本稿では,ニューラルネットワークに意味レベルの推論と単語レベルの推論機能を持たせるハイブリッド推論ネットワーク(HybridNet)を提案する。
大規模ビデオ・ツー・コモンセンスベンチマークの実験と豊富な分析により,我々のHybridNetは,他の手法と比較して最先端の性能を達成していることがわかった。
- 参考スコア(独自算出の注目度): 47.75141838451689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of video-based commonsense captioning aims to generate event-wise
captions and meanwhile provide multiple commonsense descriptions (e.g.,
attribute, effect and intention) about the underlying event in the video. Prior
works explore the commonsense captions by using separate networks for different
commonsense types, which is time-consuming and lacks mining the interaction of
different commonsense. In this paper, we propose a Hybrid Reasoning Network
(HybridNet) to endow the neural networks with the capability of semantic-level
reasoning and word-level reasoning. Firstly, we develop multi-commonsense
learning for semantic-level reasoning by jointly training different commonsense
types in a unified network, which encourages the interaction between the clues
of multiple commonsense descriptions, event-wise captions and videos. Then,
there are two steps to achieve the word-level reasoning: (1) a memory module
records the history predicted sequence from the previous generation processes;
(2) a memory-routed multi-head attention (MMHA) module updates the word-level
attention maps by incorporating the history information from the memory module
into the transformer decoder for word-level reasoning. Moreover, the multimodal
features are used to make full use of diverse knowledge for commonsense
reasoning. Experiments and abundant analysis on the large-scale
Video-to-Commonsense benchmark show that our HybridNet achieves
state-of-the-art performance compared with other methods.
- Abstract(参考訳): ビデオベースのcommonsenseキャプションのタスクは、イベント毎のキャプションの生成と、ビデオの基盤となるイベントに関する複数のcommonsense記述(属性、効果、意図など)の提供を目的としている。
以前の作品では、異なるcommonsenseタイプのために別々のネットワークを使用することで、commonsenseのキャプションを探求している。
本稿では,ニューラルネットワークに意味レベルの推論と単語レベルの推論の能力を与えるハイブリッド推論ネットワーク(hybridnet)を提案する。
まず,複数のコモンセンス記述の手がかり,イベントワイズキャプション,ビデオ間のインタラクションを促進するために,統合ネットワークで異なるコモンセンスタイプを共同学習することにより,意味論的推論のためのマルチコモンセンス学習を開発する。
そして、(1)メモリモジュールが、前世代のプロセスから予測された履歴シーケンスを記録すること、(2)メモリモジュールからの履歴情報をワードレベルの推論のためにトランスフォーマデコーダに組み込むことにより、メモリ主導マルチヘッドアテンション(mmha)モジュールがワードレベルのアテンションマップを更新すること、の2つのステップがある。
さらに、マルチモーダル機能は、コモンセンス推論の多様な知識をフル活用するために使用される。
大規模ビデオ・ツー・コモンセンスベンチマークの実験と豊富な分析により,我々のHybridNetは,他の手法と比較して最先端の性能を達成した。
関連論文リスト
- GEM-VPC: A dual Graph-Enhanced Multimodal integration for Video Paragraph Captioning [4.290482766926506]
Video paragraph Captioning (VPC) は、ビデオ内の重要な出来事を要約する段落を生成することを目的としている。
本フレームワークは,多モーダル情報とコモンセンス知識の相互作用をキャプチャする「ビデオ固有」時間グラフと,特定のテーマの単語間の相関を表す「テーマグラフ」という2つのグラフを構築する。
結果はベンチマークデータセット間で優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-12T06:01:00Z) - Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval [9.899703354116962]
Dense Videoのキャプションは、すべてのイベントを自動的にローカライズし、非トリミングビデオ内でキャプションすることを目的としている。
本稿では,人間の認知情報処理に触発された新しい枠組みを提案する。
我々のモデルは、事前知識を組み込むために外部記憶を利用する。
論文 参考訳(メタデータ) (2024-04-11T09:58:23Z) - Implicit and Explicit Commonsense for Multi-sentence Video Captioning [33.969215964292395]
本稿では,暗黙的(視覚言語と純粋言語)と明示的(知識ベース)のコモンセンス知識を考慮に入れた,トランスフォーマーに基づく新しいビデオキャプションモデルを提案する。
我々は,これらの形態の知識が,単独で,かつ組み合わせて,生成したキャプションの品質を高めることを示す。
論文 参考訳(メタデータ) (2023-03-14T00:19:11Z) - A Multi-level Alignment Training Scheme for Video-and-Language Grounding [9.866172676211905]
優れたマルチモーダルエンコーダは、入力のセマンティクスを適切にキャプチャし、それらを共有機能空間にエンコードできるべきです。
符号化プロセスを直接整形する多段階アライメントトレーニング手法を開発した。
筆者らのフレームワークは,複数のビデオQAおよび検索データセット上で,過去の最先端技術に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-04-22T21:46:52Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z) - Video SemNet: Memory-Augmented Video Semantic Network [14.64546899992196]
本稿では,低レベルデータ表現と視覚媒体の意味的側面のギャップを埋めることで,映画の物語要素を捉える機械学習手法を提案する。
本稿では、意味記述子をエンコードし、ビデオの埋め込みを学ぶために、ビデオセマンティックネットワーク(Video SemNet)というメモリ拡張ビデオセマンティックネットワークを提案する。
重み付きF-1スコアは0.72, IMDB評価は0.63である。
論文 参考訳(メタデータ) (2020-11-22T01:36:37Z) - Dual Encoding for Video Retrieval by Text [49.34356217787656]
本稿では,ビデオやクエリを独自の高密度表現に符号化する2つのディープエンコーディングネットワークを提案する。
まず、特定のシングルレベルエンコーダを利用する先行技術と異なり、提案するネットワークはマルチレベルエンコーダを実行する。
第2に、概念ベースまたは潜在空間ベースのいずれかである従来の共通空間学習アルゴリズムとは異なり、ハイブリッド空間学習を導入する。
論文 参考訳(メタデータ) (2020-09-10T15:49:39Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z) - Video Captioning with Guidance of Multimodal Latent Topics [123.5255241103578]
我々は、データから教師なしの方法でマルチモーダルトピックをマイニングする統合キャプションフレームワークM&M TGMを提案する。
事前に定義されたトピックと比較して、マイニングされたマルチモーダルトピックはより意味的に、視覚的に一貫性がある。
MSR-VTTとYoutube2Textのデータセットを用いた大規模な実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2017-08-31T11:18:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。