論文の概要: Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding
- arxiv url: http://arxiv.org/abs/2301.09071v1
- Date: Sun, 22 Jan 2023 08:02:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 15:06:00.566229
- Title: Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding
- Title(参考訳): 構成時間的接地のための変分クロスグラフ推論と適応的構造的セマンティック学習
- Authors: Juncheng Li, Siliang Tang, Linchao Zhu, Wenqiao Zhang, Yi Yang,
Tat-Seng Chua, Fei Wu, Yueting Zhuang
- Abstract要約: テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素である、と我々は主張する。
- 参考スコア(独自算出の注目度): 143.5927158318524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal grounding is the task of locating a specific segment from an
untrimmed video according to a query sentence. This task has achieved
significant momentum in the computer vision community as it enables activity
grounding beyond pre-defined activity classes by utilizing the semantic
diversity of natural language descriptions. The semantic diversity is rooted in
the principle of compositionality in linguistics, where novel semantics can be
systematically described by combining known words in novel ways (compositional
generalization). However, existing temporal grounding datasets are not
carefully designed to evaluate the compositional generalizability. To
systematically benchmark the compositional generalizability of temporal
grounding models, we introduce a new Compositional Temporal Grounding task and
construct two new dataset splits, i.e., Charades-CG and ActivityNet-CG. When
evaluating the state-of-the-art methods on our new dataset splits, we
empirically find that they fail to generalize to queries with novel
combinations of seen words. We argue that the inherent structured semantics
inside the videos and language is the crucial factor to achieve compositional
generalization. Based on this insight, we propose a variational cross-graph
reasoning framework that explicitly decomposes video and language into
hierarchical semantic graphs, respectively, and learns fine-grained semantic
correspondence between the two graphs. Furthermore, we introduce a novel
adaptive structured semantics learning approach to derive the
structure-informed and domain-generalizable graph representations, which
facilitate the fine-grained semantic correspondence reasoning between the two
graphs. Extensive experiments validate the superior compositional
generalizability of our approach.
- Abstract(参考訳): テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。
このタスクは、自然言語記述のセマンティクスの多様性を利用して、事前定義されたアクティビティクラスを超えたアクティビティを基盤として、コンピュータビジョンコミュニティで大きな勢いを得ています。
意味の多様性は言語学における構成性の原理に根ざしており、新しい意味論は、既知の単語を新しい方法で結合することで体系的に記述することができる。
しかし、既存の時間的接地データセットは、構成の一般化性を評価するために慎重に設計されていない。
時間的接地モデルの合成一般化性を体系的に評価するために,新たな時間的接地タスクを導入し,新たな2つのデータセット分割,すなわちCharades-CGとActivityNet-CGを構築した。
新しいデータセットの分割に関する最先端の手法を評価すると、出現した単語の新たな組み合わせによるクエリへの一般化に失敗したことを経験的に見出す。
ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素であると主張する。
この知見に基づき、ビデオと言語をそれぞれ階層的な意味グラフに明示的に分解し、2つのグラフ間の微粒な意味対応を学習する変分横断グラフ推論フレームワークを提案する。
さらに,2つのグラフ間の微粒な意味対応推論を容易にする構造インフォームドおよびドメイン一般化可能なグラフ表現を導出するための,適応型構造化意味論的学習手法を提案する。
広範な実験は、我々のアプローチの優れた構成一般化可能性を検証する。
関連論文リスト
- A Comprehensive Empirical Evaluation of Existing Word Embedding
Approaches [5.065947993017158]
既存の単語埋め込み手法の特徴を概説し,多くの分類タスクについて解析する。
伝統的なアプローチでは、主に単語表現を生成するために行列分解を使い、言語の意味的および構文的規則性をうまく捉えることができない。
一方、ニューラルネットワークに基づくアプローチは、言語の洗練された規則性を捕捉し、生成した単語表現における単語関係を保存することができる。
論文 参考訳(メタデータ) (2023-03-13T15:34:19Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Compositional Temporal Grounding with Structured Variational Cross-Graph
Correspondence Learning [92.07643510310766]
ビデオの時間的接地は、あるクエリ文に意味的に対応する1つのターゲットビデオセグメントをローカライズすることを目的としている。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
出現した単語の新たな組み合わせによるクエリの一般化に失敗したことを実証的に見出した。
本稿では,ビデオと言語を複数の階層構造に明示的に分解する多変分グラフ推論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-24T12:55:23Z) - Building a visual semantics aware object hierarchy [0.0]
視覚的意味論を意識したオブジェクト階層を構築するための新しい教師なし手法を提案する。
この論文の直感は、概念が階層的に組織化されている現実世界の知識表現から来ています。
評価は2つの部分から構成され、まず、構築された階層をオブジェクト認識タスクに適用し、その上で、視覚的階層と既存の語彙階層を比較して、提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-02-26T00:10:21Z) - Plurality and Quantification in Graph Representation of Meaning [4.82512586077023]
我々のグラフ言語は、モナディックな2階変数のみを用いた自然言語意味論の本質を網羅している。
単純な構文意味インタフェースで意味グラフを構築するための統一型機構を提案する。
現在のグラフ形式は、分配的述語、カテゴリー横断接続、および量化表現のスコープ置換における言語問題に適用される。
論文 参考訳(メタデータ) (2021-12-13T07:04:41Z) - Learning to Generalize Compositionally by Transferring Across Semantic
Parsing Tasks [37.66114618645146]
本研究では,ある構成課題から別の構成課題への移動学習を容易にする学習表現について検討する。
本手法を3つの全く異なるデータセットを用いて意味解析に適用する。
本手法は,対象タスクのテストセット上でのベースラインに対する合成一般化を著しく改善する。
論文 参考訳(メタデータ) (2021-11-09T09:10:21Z) - Transformer-based Dual Relation Graph for Multi-label Image Recognition [56.12543717723385]
本稿では,トランスフォーマーをベースとしたデュアルリレーショナル学習フレームワークを提案する。
相関の2つの側面、すなわち構造関係グラフと意味関係グラフについて検討する。
提案手法は,2つのポピュラーなマルチラベル認識ベンチマークにおいて,最先端性を実現する。
論文 参考訳(メタデータ) (2021-10-10T07:14:52Z) - Adaptive Hierarchical Graph Reasoning with Semantic Coherence for
Video-and-Language Inference [81.50675020698662]
Video-and-Language Inferenceは、最近提案された共同ビデオ・言語理解のタスクである。
本稿では,複雑な相互作用に関する映像の深い理解を実現する適応階層型グラフネットワークを提案する。
3つの階層から適応階層型グラフネットワークのセマンティックコヒーレンスを明示的に促進するためにセマンティックコヒーレンス学習を導入する。
論文 参考訳(メタデータ) (2021-07-26T15:23:19Z) - A Benchmark for Systematic Generalization in Grounded Language
Understanding [61.432407738682635]
人間は慣れ親しんだ部分から成り立つ不慣れな状況を記述する表現を容易に解釈する。
対照的に、現代のニューラルネットワークは、新しい構成を理解するのに苦労している。
位置言語理解における合成一般化を評価するための新しいベンチマークであるgSCANを導入する。
論文 参考訳(メタデータ) (2020-03-11T08:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。