論文の概要: Cross-Modal Graph with Meta Concepts for Video Captioning
- arxiv url: http://arxiv.org/abs/2108.06458v1
- Date: Sat, 14 Aug 2021 04:00:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 15:15:53.707479
- Title: Cross-Modal Graph with Meta Concepts for Video Captioning
- Title(参考訳): ビデオキャプションのためのメタ概念を用いたクロスモーダルグラフ
- Authors: Hao Wang, Guosheng Lin, Steven C. H. Hoi, Chunyan Miao
- Abstract要約: ビデオキャプションのためのメタ概念を用いたクロスモーダルグラフ(CMG)を提案する。
ビデオキャプションで有用な意味概念を網羅するために、テキスト記述のための対応する視覚領域を弱く学習する。
我々は、予測された述語を用いて、全体的ビデオレベルおよび局所的フレームレベルのビデオグラフを構築し、ビデオシーケンス構造をモデル化する。
- 参考スコア(独自算出の注目度): 101.97397967958722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video captioning targets interpreting the complex visual contents as text
descriptions, which requires the model to fully understand video scenes
including objects and their interactions. Prevailing methods adopt
off-the-shelf object detection networks to give object proposals and use the
attention mechanism to model the relations between objects. They often miss
some undefined semantic concepts of the pretrained model and fail to identify
exact predicate relationships between objects. In this paper, we investigate an
open research task of generating text descriptions for the given videos, and
propose Cross-Modal Graph (CMG) with meta concepts for video captioning.
Specifically, to cover the useful semantic concepts in video captions, we
weakly learn the corresponding visual regions for text descriptions, where the
associated visual regions and textual words are named cross-modal meta
concepts. We further build meta concept graphs dynamically with the learned
cross-modal meta concepts. We also construct holistic video-level and local
frame-level video graphs with the predicted predicates to model video sequence
structures. We validate the efficacy of our proposed techniques with extensive
experiments and achieve state-of-the-art results on two public datasets.
- Abstract(参考訳): ビデオキャプションのターゲットは、複雑な視覚的内容をテキスト記述として解釈し、オブジェクトやそれらの相互作用を含むビデオシーンを完全に理解する必要がある。
一般的な手法では、オフザシェルフオブジェクト検出ネットワークを用いてオブジェクトの提案を行い、オブジェクト間の関係をモデル化するためにアテンションメカニズムを使用する。
彼らはしばしば事前訓練されたモデルの未定義の意味概念を見逃し、オブジェクト間の正確な述語関係を識別できない。
本稿では,ビデオのテキスト記述を生成するオープンな研究課題について検討し,動画キャプションのメタ概念を用いたクロスモーダルグラフ(CMG)を提案する。
具体的には、映像キャプションにおける有用な意味概念をカバーするために、対応するテキスト記述の視覚領域を弱く学習し、関連する視覚領域とテクストワードをクロスモーダルメタ概念と命名する。
さらに、学習したクロスモーダルなメタ概念でメタ概念グラフを動的に構築する。
また,ビデオシーケンス構造をモデル化するために,予測述語を用いた全体像と局所像のフレームレベルのビデオグラフを構築した。
提案手法の有効性を広範な実験で検証し,2つの公開データセットで最新の結果を得た。
関連論文リスト
- SceneGATE: Scene-Graph based co-Attention networks for TExt visual
question answering [2.8974040580489198]
テキストVQAのためのScene Graphベースのコアテンションネットワーク(SceneGATE)を提案する。
対象物間の意味的関係、光学文字認識(OCR)トークンおよび質問語を明らかにする。
これはTextVQAベースのシーングラフによって実現され、画像の基盤となるセマンティクスを検出する。
論文 参考訳(メタデータ) (2022-12-16T05:10:09Z) - Modeling Semantic Composition with Syntactic Hypergraph for Video
Question Answering [14.033438649614219]
ビデオ質問応答の鍵となる課題は、テキストの概念と対応する視覚オブジェクト間の相互意味的アライメントを実現する方法である。
そこで本研究では,まず,既製のツールを用いて,各質問に対する構文依存ツリーを構築することを提案する。
抽出された構成に基づいて、単語をノードとして、合成をハイパーエッジとして見ることで、ハイパーグラフをさらに構築する。
論文 参考訳(メタデータ) (2022-05-13T09:28:13Z) - Discourse Analysis for Evaluating Coherence in Video Paragraph Captions [99.37090317971312]
ビデオ段落のコヒーレンスを評価するための,新しい談話に基づく枠組みを検討中である。
ビデオのコヒーレンスに条件付き段落のコヒーレンスをモデル化する上で,ビデオの談話表現が中心となる。
実験の結果,提案手法は,ビデオ段落のコヒーレンスをベースライン法よりも有意に向上させることがわかった。
論文 参考訳(メタデータ) (2022-01-17T04:23:08Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Relational Graph Learning for Grounded Video Description Generation [85.27028390401136]
接地記述(GVD)は、キャプションモデルが適切なビデオ領域に動的に参加することを奨励し、記述を生成する。
このような設定は、キャプションモデルの決定を説明し、モデルが記述中のオブジェクト単語を幻覚させるのを防ぐのに役立つ。
我々はGVDのための新しいリレーショナルグラフ学習フレームワークを設計し、細粒度視覚概念を探索するために、言語に精通したシーングラフ表現を設計する。
論文 参考訳(メタデータ) (2021-12-02T03:48:45Z) - MOC-GAN: Mixing Objects and Captions to Generate Realistic Images [21.240099965546637]
より合理的な設定を導入し、オブジェクトやキャプションからリアルなイメージを生成します。
この設定では、オブジェクトはターゲットイメージにおける重要な役割を明示的に定義し、キャプションは、そのリッチな属性とコネクションを暗黙的に記述する。
2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
論文 参考訳(メタデータ) (2021-06-06T14:04:07Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。