論文の概要: Hierarchical Modular Network for Video Captioning
- arxiv url: http://arxiv.org/abs/2111.12476v2
- Date: Thu, 25 Nov 2021 01:41:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 12:43:17.150174
- Title: Hierarchical Modular Network for Video Captioning
- Title(参考訳): ビデオキャプションのための階層型モジュールネットワーク
- Authors: Hanhua Ye, Guorong Li, Yuankai Qi, Shuhui Wang, Qingming Huang,
Ming-Hsuan Yang
- Abstract要約: ビデオ表現と言語意味論を3つのレベルからブリッジし,キャプションを生成する階層型モジュールネットワークを提案する。
提案手法は,MSVD 104.0% と MSR-VTT 51.5% の CIDEr スコアの2つのベンチマークにおいて,最先端のモデルに対して良好に動作する。
- 参考スコア(独自算出の注目度): 162.70349114104107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video captioning aims to generate natural language descriptions according to
the content, where representation learning plays a crucial role. Existing
methods are mainly developed within the supervised learning framework via
word-by-word comparison of the generated caption against the ground-truth text
without fully exploiting linguistic semantics. In this work, we propose a
hierarchical modular network to bridge video representations and linguistic
semantics from three levels before generating captions. In particular, the
hierarchy is composed of: (I) Entity level, which highlights objects that are
most likely to be mentioned in captions. (II) Predicate level, which learns the
actions conditioned on highlighted objects and is supervised by the predicate
in captions. (III) Sentence level, which learns the global semantic
representation and is supervised by the whole caption. Each level is
implemented by one module. Extensive experimental results show that the
proposed method performs favorably against the state-of-the-art models on the
two widely-used benchmarks: MSVD 104.0% and MSR-VTT 51.5% in CIDEr score.
- Abstract(参考訳): ビデオキャプションは、表現学習が重要な役割を果たすコンテンツに応じて自然言語記述を生成することを目的としている。
既存の手法は主に、言語意味論を十分に活用することなく、生成した字幕と接頭辞の単語による比較を通して教師付き学習フレームワーク内で開発されている。
本研究では,映像表現と言語意味論を3段階から橋渡しし,キャプションを生成する階層型モジュールネットワークを提案する。
特に、階層構造は以下のように構成されている: (i) エンティティレベルは、キャプションで言及される可能性が高いオブジェクトを強調する。
(II)
述語レベル - ハイライトされたオブジェクトに条件付けされたアクションを学習し、述語がキャプションで指示する。
(III)
文レベルは、グローバル意味表現を学習し、キャプション全体によって監督される。
各レベルは1つのモジュールによって実装される。
その結果,提案手法は,MSVD 104.0%とMSR-VTT 51.5%のCIDErスコアの2つのベンチマークにおいて,最先端のモデルに対して良好に動作することがわかった。
関連論文リスト
- Towards the Next Frontier in Speech Representation Learning Using Disentanglement [34.21745744502759]
本稿では,フレームレベルと発話レベルのエンコーダモジュールから構成される音声の拡散自己監督学習(Learning2Diss)のためのフレームワークを提案する。
提案したLearn2Dissは,フレームレベルのエンコーダ表現が意味的タスクを改善する一方で,発話レベルの表現が非意味的なタスクを改善することにより,様々なタスクにおける最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-02T07:13:35Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Unifying Latent and Lexicon Representations for Effective Video-Text
Retrieval [87.69394953339238]
ビデオテキスト検索における微細な意味を捉えるために語彙表現を学習するUNIFYフレームワークを提案する。
MSR-VTT と DiDeMo をそれぞれ4.8%,Recall@1 を8.2%改善した。
論文 参考訳(メタデータ) (2024-02-26T17:36:50Z) - Boosting Video-Text Retrieval with Explicit High-Level Semantics [115.66219386097295]
VTRのための新しい視覚言語整合モデルHiSEを提案する。
明示的なハイレベルなセマンティクスを取り入れることで、クロスモーダル表現を改善する。
提案手法は,3つのベンチマークデータセット上での最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-08-08T15:39:54Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Discriminative Latent Semantic Graph for Video Captioning [24.15455227330031]
ビデオキャプションは、あるビデオの視覚的内容を記述する自然言語文を自動的に生成することを目的としている。
我々の主な貢献は、将来のビデオ要約タスクのための統合フレームワークにおける3つの重要な問題を特定することである。
論文 参考訳(メタデータ) (2021-08-08T15:11:20Z) - O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable
Video Captioning [41.14313691818424]
ビデオキャプションのためのオブジェクト指向非自己回帰手法(O2NA)を提案する。
O2NAは、1)フォーカス対象を特定し、ターゲットキャプション内の位置を予測すること、2)フォーカス対象の関連属性語と関係語を生成してドラフトキャプションを形成すること、3)ビデオ情報を組み合わせて、ドラフトキャプションを洗練された最終キャプションに変換すること、の3つのステップでキャプション生成を行う。
MSR-VTTとMSVDという2つのベンチマークデータセットの実験は、O2NAの有効性を実証している。
論文 参考訳(メタデータ) (2021-08-05T04:17:20Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Text-Free Image-to-Speech Synthesis Using Learned Segmental Units [24.657722909094662]
画像の自然な音声キャプションを直接流用する最初のモデルを提案する。
我々は、画像キャプションモジュールと音声合成モジュールを、独立したサブワード音声ユニットのセットで接続する。
Flickr8k音声キャプションデータセットと、人気のMSCOCOデータセットのために収集された音声キャプションの新しいコーパスについて実験を行います。
論文 参考訳(メタデータ) (2020-12-31T05:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。