論文の概要: Adaptive Hierarchical Graph Reasoning with Semantic Coherence for
Video-and-Language Inference
- arxiv url: http://arxiv.org/abs/2107.12270v1
- Date: Mon, 26 Jul 2021 15:23:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 16:00:32.403303
- Title: Adaptive Hierarchical Graph Reasoning with Semantic Coherence for
Video-and-Language Inference
- Title(参考訳): 映像・言語推論のための意味コヒーレンスを用いた適応的階層グラフ推論
- Authors: Juncheng Li, Siliang Tang, Linchao Zhu, Haochen Shi, Xuanwen Huang,
Fei Wu, Yi Yang, Yueting Zhuang
- Abstract要約: Video-and-Language Inferenceは、最近提案された共同ビデオ・言語理解のタスクである。
本稿では,複雑な相互作用に関する映像の深い理解を実現する適応階層型グラフネットワークを提案する。
3つの階層から適応階層型グラフネットワークのセマンティックコヒーレンスを明示的に促進するためにセマンティックコヒーレンス学習を導入する。
- 参考スコア(独自算出の注目度): 81.50675020698662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-and-Language Inference is a recently proposed task for joint
video-and-language understanding. This new task requires a model to draw
inference on whether a natural language statement entails or contradicts a
given video clip. In this paper, we study how to address three critical
challenges for this task: judging the global correctness of the statement
involved multiple semantic meanings, joint reasoning over video and subtitles,
and modeling long-range relationships and complex social interactions. First,
we propose an adaptive hierarchical graph network that achieves in-depth
understanding of the video over complex interactions. Specifically, it performs
joint reasoning over video and subtitles in three hierarchies, where the graph
structure is adaptively adjusted according to the semantic structures of the
statement. Secondly, we introduce semantic coherence learning to explicitly
encourage the semantic coherence of the adaptive hierarchical graph network
from three hierarchies. The semantic coherence learning can further improve the
alignment between vision and linguistics, and the coherence across a sequence
of video segments. Experimental results show that our method significantly
outperforms the baseline by a large margin.
- Abstract(参考訳): Video-and-Language Inferenceは、最近提案された共同ビデオ・言語理解のタスクである。
この新しいタスクでは、自然言語文が所定のビデオクリップを伴うか矛盾しているかを推論するモデルが必要となる。
本稿では,複数の意味的意味を含む言明のグローバルな正当性を判断し,ビデオや字幕に対する共同推論を行い,長距離関係や複雑な社会的相互作用をモデル化する,という3つの重要な課題に対処する方法を検討する。
まず,複雑な相互作用による映像の深い理解を実現する適応階層型グラフネットワークを提案する。
具体的には、3階層の動画と字幕に対して共同推論を行い、文の意味構造に応じてグラフ構造を適応的に調整する。
次に,3階層から適応型階層グラフネットワークの意味コヒーレンスを明示的に促進するために,意味コヒーレンス学習を導入する。
セマンティックコヒーレンス学習は、視覚と言語学のアライメントと、ビデオセグメントのシーケンス間のコヒーレンスをさらに改善することができる。
実験結果から,本手法はベースラインのマージンを大きく上回ることがわかった。
関連論文リスト
- HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model [9.762722976833581]
現在のモデルは、ビデオと言語間のインスタンスレベルのアライメントに大きく依存している。
我々は、人間の知覚からインスピレーションを得て、エゴビデオ表現のための構成的アプローチを探求する。
論文 参考訳(メタデータ) (2024-06-01T05:41:12Z) - Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding [143.5927158318524]
テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素である、と我々は主張する。
論文 参考訳(メタデータ) (2023-01-22T08:02:23Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning [72.52804406378023]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、注目を集めている。
微細なビデオテキスト検索を改善するために,ビデオテキストマッチングをグローバル-ローカルレベルに分解する階層グラフ推論モデルを提案する。
論文 参考訳(メタデータ) (2020-03-01T03:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。