論文の概要: Set Prediction Guided by Semantic Concepts for Diverse Video Captioning
- arxiv url: http://arxiv.org/abs/2312.15720v1
- Date: Mon, 25 Dec 2023 13:13:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 16:40:45.521811
- Title: Set Prediction Guided by Semantic Concepts for Diverse Video Captioning
- Title(参考訳): 多様な映像キャプションのための意味概念に基づく集合予測
- Authors: Yifan Lu, Ziqi Zhang, Chunfeng Yuan, Peng Li, Yan Wang, Bing Li,
Weiming Hu
- Abstract要約: 我々は、多種多様なキャプションを意味概念に基づく集合予測問題に定式化する。
モデルが意味的に多様なキャプションを生成することを奨励するために,概念に多様性規則化用語を適用した。
提案モデルでは,妥当性と多様性の両指標を用いて,最先端(SOTA)性能を実現する。
- 参考スコア(独自算出の注目度): 47.89731738027379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diverse video captioning aims to generate a set of sentences to describe the
given video in various aspects. Mainstream methods are trained with independent
pairs of a video and a caption from its ground-truth set without exploiting the
intra-set relationship, resulting in low diversity of generated captions.
Different from them, we formulate diverse captioning into a
semantic-concept-guided set prediction (SCG-SP) problem by fitting the
predicted caption set to the ground-truth set, where the set-level relationship
is fully captured. Specifically, our set prediction consists of two synergistic
tasks, i.e., caption generation and an auxiliary task of concept combination
prediction providing extra semantic supervision. Each caption in the set is
attached to a concept combination indicating the primary semantic content of
the caption and facilitating element alignment in set prediction. Furthermore,
we apply a diversity regularization term on concepts to encourage the model to
generate semantically diverse captions with various concept combinations. These
two tasks share multiple semantics-specific encodings as input, which are
obtained by iterative interaction between visual features and conceptual
queries. The correspondence between the generated captions and specific concept
combinations further guarantees the interpretability of our model. Extensive
experiments on benchmark datasets show that the proposed SCG-SP achieves
state-of-the-art (SOTA) performance under both relevance and diversity metrics.
- Abstract(参考訳): ディバースビデオキャプションは、与えられた動画を様々な面で記述するための一連の文を生成することを目的としている。
メインストリーム法は、セット内関係を生かさずに、ビデオの独立したペアと接頭辞で訓練され、生成された字幕の多様性は低い。
それらと異なり、予測されたキャプションセットを基底集合に適合させることにより、セマンティクス・コンセプタ・ガイドセット予測(scg-sp)問題に多様なキャプションを定式化する。
特に,集合予測は2つの相乗的タスク,すなわちキャプション生成と,追加的な意味的監督を提供する概念結合予測の補助タスクから構成されている。
セット内の各キャプションは、キャプションの第一の意味的内容を示し、セット予測における要素アライメントを容易にする概念の組み合わせに取り付けられる。
さらに,様々な概念の組み合わせで意味的に多様なキャプションを生成することをモデルに促すために,概念に多様性規則化用語を適用した。
これら2つのタスクは、視覚的特徴と概念的クエリの反復的相互作用によって得られる複数の意味論的エンコーディングを入力として共有する。
生成されたキャプションと特定の概念の組み合わせの対応は、モデルの解釈可能性をさらに保証します。
ベンチマークデータセットに関する広範囲な実験により、提案するscg-spは関連度と多様性の指標の両方において最先端(sota)性能を達成していることが示された。
関連論文リスト
- Collaboratively Self-supervised Video Representation Learning for Action
Recognition [58.195372471117615]
我々は,行動認識に特化した協調的自己指導型ビデオ表現学習フレームワークを設計する。
提案手法は,UCF101およびHMDB51データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-15T10:42:04Z) - ACSeg: Adaptive Conceptualization for Unsupervised Semantic Segmentation [17.019848796027485]
自己教師付き視覚事前学習モデルでは,画素レベルの意味的関係を表現することに大きな期待が持たれている。
本研究では,自己学習モデルにおける画素レベルのセマンティックアグリゲーションを画像エンコードや設計概念として検討する。
本稿では,これらのプロトタイプを各画像に対する情報的概念に適応的にマッピングするアダプティブ・コンセプト・ジェネレータ(ACG)を提案する。
論文 参考訳(メタデータ) (2022-10-12T06:16:34Z) - Diverse Video Captioning by Adaptive Spatio-temporal Attention [7.96569366755701]
エンド・ツー・エンドのエンコーダ・デコーダ・ビデオキャプション・フレームワークには2つのトランスフォーマー・ベースのアーキテクチャが組み込まれている。
本稿では,必要なフレーム数を削減するための適応フレーム選択方式を提案する。
ビデオキャプションに関するセマンティックな概念を,各サンプルのすべての接頭辞の真実を集約することで推定する。
論文 参考訳(メタデータ) (2022-08-19T11:21:59Z) - Controllable Video Captioning with an Exemplar Sentence [89.78812365216983]
本稿では,エンコーダ・デコーダ・リコンストラクタアーキテクチャに組み込んだ新しいSMCGを提案する。
SMCGはビデオセマンティック表現を入力とし、長期記憶ネットワークのゲートとセルを条件的に変調する。
2つの公開ビデオキャプションデータセットに対して、補助的な例文を収集して実験を行う。
論文 参考訳(メタデータ) (2021-12-02T09:24:45Z) - Syntax Customized Video Captioning by Imitating Exemplar Sentences [90.98221715705435]
SCVC(Syntax Customized Video Captioning)の新たなタスクについて紹介する。
SCVCは、ビデオの内容を意味的に記述するだけでなく、与えられた先行文を構文的に模倣する1つのキャプションを生成することを目的としている。
本稿では,構文解析と意味論的コヒーレントなビデオキャプションを生成するためのモデル機能を示す。
論文 参考訳(メタデータ) (2021-12-02T09:08:09Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Dense Relational Image Captioning via Multi-task Triple-Stream Networks [95.0476489266988]
視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。
このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
論文 参考訳(メタデータ) (2020-10-08T09:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。