論文の概要: Compositional Temporal Grounding with Structured Variational Cross-Graph
Correspondence Learning
- arxiv url: http://arxiv.org/abs/2203.13049v2
- Date: Mon, 28 Mar 2022 14:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 10:46:05.845704
- Title: Compositional Temporal Grounding with Structured Variational Cross-Graph
Correspondence Learning
- Title(参考訳): 構造的変分クロスグラフ対応学習による合成時間的接地
- Authors: Juncheng Li, Junlin Xie, Long Qian, Linchao Zhu, Siliang Tang, Fei Wu,
Yi Yang, Yueting Zhuang, Xin Eric Wang
- Abstract要約: ビデオの時間的接地は、あるクエリ文に意味的に対応する1つのターゲットビデオセグメントをローカライズすることを目的としている。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
出現した単語の新たな組み合わせによるクエリの一般化に失敗したことを実証的に見出した。
本稿では,ビデオと言語を複数の階層構造に明示的に分解する多変分グラフ推論フレームワークを提案する。
- 参考スコア(独自算出の注目度): 92.07643510310766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal grounding in videos aims to localize one target video segment that
semantically corresponds to a given query sentence. Thanks to the semantic
diversity of natural language descriptions, temporal grounding allows activity
grounding beyond pre-defined classes and has received increasing attention in
recent years. The semantic diversity is rooted in the principle of
compositionality in linguistics, where novel semantics can be systematically
described by combining known words in novel ways (compositional
generalization). However, current temporal grounding datasets do not
specifically test for the compositional generalizability. To systematically
measure the compositional generalizability of temporal grounding models, we
introduce a new Compositional Temporal Grounding task and construct two new
dataset splits, i.e., Charades-CG and ActivityNet-CG. Evaluating the
state-of-the-art methods on our new dataset splits, we empirically find that
they fail to generalize to queries with novel combinations of seen words. To
tackle this challenge, we propose a variational cross-graph reasoning framework
that explicitly decomposes video and language into multiple structured
hierarchies and learns fine-grained semantic correspondence among them.
Experiments illustrate the superior compositional generalizability of our
approach. The repository of this work is at https://github.com/YYJMJC/
Compositional-Temporal-Grounding.
- Abstract(参考訳): ビデオの時間的接地は、あるクエリ文に意味的に対応する1つのターゲットビデオセグメントをローカライズすることを目的としている。
自然言語の記述の多様さにより、時間的接地により、事前に定義されたクラスを超えて活動が基盤となり、近年注目を集めている。
意味の多様性は言語学における構成性の原理に根ざしており、新しい意味論は、既知の単語を新しい方法で結合することで体系的に記述することができる。
しかし、現在の時間的グラウンドデータセットは、組成の一般化性について具体的にはテストしていない。
時間的接地モデルの合成汎性を体系的に測定するために,新しい時間的接地タスクを導入し,2つの新しいデータセット分割,すなわちcharades-cgとactivitynet-cgを構築した。
新しいデータセットスプリットにおける最先端のメソッドの評価では、見てきた単語の新しい組み合わせでクエリに一般化できないことが実証的に分かりました。
この課題に取り組むために,ビデオと言語を複数の構造化階層に明示的に分解し,それらの間の詳細な意味的対応を学ぶ変分的クロスグラフ推論フレームワークを提案する。
実験は、我々のアプローチの優れた構成一般化性を示す。
この作業のリポジトリはhttps://github.com/YYJMJC/ Composal-Temporal-Groundingにある。
関連論文リスト
- SHINE: Saliency-aware HIerarchical NEgative Ranking for Compositional Temporal Grounding [52.98133831401225]
時間的グラウンドディング(英: Temporal grounding、ビデオモーメント検索(英語版))は、所定のクエリ文に対応するビデオセグメントを特定することを目的としている。
本稿では, GPT-3.5-Turbo を用いた負のクエリ構築のための大規模言語モデル駆動手法を提案する。
本稿では,ビデオと階層的負のクエリ間の多粒度意味的関係を学習するモデルを提案する。
論文 参考訳(メタデータ) (2024-07-06T16:08:17Z) - What, when, and where? -- Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions [55.574102714832456]
時空間グラウンド(時空間グラウンド)は、空間と時間における事象を局所化するタスクを指す。
このタスクのモデルは、通常、人間の注釈付き文とバウンディングボックスの監督によって訓練される。
我々は,局所的な表現学習と,より詳細な空間情報に焦点を合わせ,高レベルな表現を捉えるグローバルな表現を組み合わせる。
論文 参考訳(メタデータ) (2023-03-29T19:38:23Z) - Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding [143.5927158318524]
テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素である、と我々は主張する。
論文 参考訳(メタデータ) (2023-01-22T08:02:23Z) - Learning to Generalize Compositionally by Transferring Across Semantic
Parsing Tasks [37.66114618645146]
本研究では,ある構成課題から別の構成課題への移動学習を容易にする学習表現について検討する。
本手法を3つの全く異なるデータセットを用いて意味解析に適用する。
本手法は,対象タスクのテストセット上でのベースラインに対する合成一般化を著しく改善する。
論文 参考訳(メタデータ) (2021-11-09T09:10:21Z) - A Neural Generative Model for Joint Learning Topics and Topic-Specific
Word Embeddings [42.87769996249732]
共同学習トピックとトピック固有の単語埋め込みのための局所的・グローバル的文脈を探索する新しい生成モデルを提案する。
訓練されたモデルは、単語を話題に依存した埋め込みにマッピングする。
論文 参考訳(メタデータ) (2020-08-11T13:54:11Z) - Local-Global Video-Text Interactions for Temporal Grounding [77.5114709695216]
本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。
そこで本研究では,テキストクエリにおける意味句の中間レベルの特徴の集合を抽出する,新しい回帰モデルを用いてこの問題に対処する。
提案手法は,ローカルからグローバルへのコンテキスト情報を活用することにより,目標時間間隔を効果的に予測する。
論文 参考訳(メタデータ) (2020-04-16T08:10:41Z) - A Benchmark for Systematic Generalization in Grounded Language
Understanding [61.432407738682635]
人間は慣れ親しんだ部分から成り立つ不慣れな状況を記述する表現を容易に解釈する。
対照的に、現代のニューラルネットワークは、新しい構成を理解するのに苦労している。
位置言語理解における合成一般化を評価するための新しいベンチマークであるgSCANを導入する。
論文 参考訳(メタデータ) (2020-03-11T08:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。