論文の概要: Cross-Modality Time-Variant Relation Learning for Generating Dynamic
Scene Graphs
- arxiv url: http://arxiv.org/abs/2305.08522v1
- Date: Mon, 15 May 2023 10:30:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 15:03:48.574946
- Title: Cross-Modality Time-Variant Relation Learning for Generating Dynamic
Scene Graphs
- Title(参考訳): 動的シーングラフ生成のためのクロスモダリティ時変関係学習
- Authors: Jingyi Wang, Jinfa Huang, Can Zhang, and Zhidong Deng
- Abstract要約: 動的シーングラフにおける関係の時間的変化をモデル化するために,時間変動型関係対応TRansformer (TR$2$)を提案する。
TR$2$は2つの異なる設定下で従来の最先端メソッドよりも大幅に優れていることを示す。
- 参考スコア(独自算出の注目度): 16.760066844287046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic scene graphs generated from video clips could help enhance the
semantic visual understanding in a wide range of challenging tasks such as
environmental perception, autonomous navigation, and task planning of
self-driving vehicles and mobile robots. In the process of temporal and spatial
modeling during dynamic scene graph generation, it is particularly intractable
to learn time-variant relations in dynamic scene graphs among frames. In this
paper, we propose a Time-variant Relation-aware TRansformer (TR$^2$), which
aims to model the temporal change of relations in dynamic scene graphs.
Explicitly, we leverage the difference of text embeddings of prompted sentences
about relation labels as the supervision signal for relations. In this way,
cross-modality feature guidance is realized for the learning of time-variant
relations. Implicitly, we design a relation feature fusion module with a
transformer and an additional message token that describes the difference
between adjacent frames. Extensive experiments on the Action Genome dataset
prove that our TR$^2$ can effectively model the time-variant relations. TR$^2$
significantly outperforms previous state-of-the-art methods under two different
settings by 2.1% and 2.6% respectively.
- Abstract(参考訳): ビデオクリップから生成される動的シーングラフは、環境認識、自律ナビゲーション、自動運転車や移動ロボットのタスク計画など、幅広い課題におけるセマンティックな視覚的理解を強化するのに役立つだろう。
動的シーングラフ生成における時間的・空間的モデリングの過程において,フレーム間の動的シーングラフの時間変動関係を学習することは特に困難である。
本稿では,動的シーングラフにおける関係の時間変化をモデル化することを目的とした,時間変動型関係対応TRansformer(TR$^2$)を提案する。
明示的に,関係ラベルに関する指示文のテキスト埋め込みの差異を関係の監督信号として活用する。
このようにして、時間変化関係の学習のためのクロスモダリティ特徴指導を実現する。
本報告では,隣接するフレーム間の差分を記述したトランスフォーマーと付加メッセージトークンを備えた関係特徴融合モジュールを設計する。
Action Genomeデータセットの大規模な実験により、TR$^2$が時間変動関係を効果的にモデル化できることが証明された。
TR$^2$は2つの異なる設定で、それぞれ2.1%と2.6%で、従来の最先端メソッドを著しく上回る。
関連論文リスト
- Towards Scene Graph Anticipation [10.678727237318503]
SGA(Scene Graph Precipation)の課題について紹介する。
我々は、オブジェクト間の将来のペアワイズ関係を予測するために、最先端のシーングラフ生成手法をベースラインとして適用する。
SceneSayerでは、オブジェクト中心の関係表現を利用して、観察されたビデオフレームを推論し、オブジェクト間の関係の進化をモデル化する。
論文 参考訳(メタデータ) (2024-03-07T21:08:51Z) - TimeGraphs: Graph-based Temporal Reasoning [64.18083371645956]
TimeGraphsは階層的時間グラフとして動的相互作用を特徴付ける新しいアプローチである。
提案手法は,コンパクトなグラフベース表現を用いて相互作用をモデル化し,多種多様な時間スケールでの適応推論を可能にする。
我々は,サッカーシミュレータ,抵抗ゲーム,MOMA人間活動データセットなど,複雑でダイナミックなエージェントインタラクションを持つ複数のデータセット上でTimeGraphsを評価する。
論文 参考訳(メタデータ) (2024-01-06T06:26:49Z) - Local-Global Information Interaction Debiasing for Dynamic Scene Graph
Generation [51.92419880088668]
マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。
長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。
論文 参考訳(メタデータ) (2023-08-10T01:24:25Z) - DyTed: Disentangled Representation Learning for Discrete-time Dynamic
Graph [59.583555454424]
離散時間動的グラフ、すなわちDyTedのための新しいディペンタングル表現学習フレームワークを提案する。
本研究では,時間不変の表現と時間変動の表現を効果的に識別する構造的コントラスト学習とともに,時間的クリップのコントラスト学習タスクを特別に設計する。
論文 参考訳(メタデータ) (2022-10-19T14:34:12Z) - Time-aware Dynamic Graph Embedding for Asynchronous Structural Evolution [60.695162101159134]
既存の作業は、動的グラフを変更のシーケンスとして見るだけである。
動的グラフを接合時間に付随する時間的エッジシーケンスとして定式化する。
頂点とエッジのタイムパン
組み込みにはタイムアウェアなTransformerが提案されている。
vertexの動的接続と学習へのToEs。
頂点表現
論文 参考訳(メタデータ) (2022-07-01T15:32:56Z) - Exploiting Long-Term Dependencies for Generating Dynamic Scene Graphs [15.614710220461353]
動的シーングラフを効果的に生成するためには,長期的依存関係のキャプチャが鍵となることを示す。
実験の結果,動的シーングラフ検出変換器(DSG-DETR)は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-12-18T03:02:11Z) - Spatial-Temporal Transformer for Dynamic Scene Graph Generation [34.190733855032065]
本研究では,(1)入力フレームを用いてフレーム内の視覚的関係を抽出する空間エンコーダと,(2)空間エンコーダの出力を入力とする時間デコーダの2つのコアモジュールからなるニューラルネットワークを提案する。
我々の方法はベンチマークデータセットAction Genome(AG)で検証されている。
論文 参考訳(メタデータ) (2021-07-26T16:30:30Z) - TCL: Transformer-based Dynamic Graph Modelling via Contrastive Learning [87.38675639186405]
我々は,動的に進化するグラフを連続的に扱う,TCLと呼ばれる新しいグラフニューラルネットワークアプローチを提案する。
我々の知る限りでは、これは動的グラフ上の表現学習にコントラスト学習を適用する最初の試みである。
論文 参考訳(メタデータ) (2021-05-17T15:33:25Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Understanding Dynamic Scenes using Graph Convolution Networks [22.022759283770377]
本稿では,移動カメラが捉えた時間順のフレーム列から道路車両の挙動をモデル化する新しい枠組みを提案する。
微調整に頼らずに複数のデータセットへの学習のシームレスな移行を示す。
このような振る舞い予測手法は,様々なナビゲーションタスクにおいて即時関連性を見出す。
論文 参考訳(メタデータ) (2020-05-09T13:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。