論文の概要: Spatiotemporal Event Graphs for Dynamic Scene Understanding
- arxiv url: http://arxiv.org/abs/2312.07621v1
- Date: Mon, 11 Dec 2023 22:30:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 17:58:41.257443
- Title: Spatiotemporal Event Graphs for Dynamic Scene Understanding
- Title(参考訳): 動的シーン理解のための時空間イベントグラフ
- Authors: Salman Khan
- Abstract要約: 本稿では,自律運転から複雑な映像のアクティビティ検出に至るまで,動的シーン理解のための一連のフレームワークを提案する。
本稿では,局所的な(短期的な)動的シーンを符号化したグラフに適用した注目と,時間グラフによる全体長期活動のモデル化を併用したハイブリッドグラフニューラルネットワークを提案する。
- 参考スコア(独自算出の注目度): 14.735329256577101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic scene understanding is the ability of a computer system to interpret
and make sense of the visual information present in a video of a real-world
scene. In this thesis, we present a series of frameworks for dynamic scene
understanding starting from road event detection from an autonomous driving
perspective to complex video activity detection, followed by continual learning
approaches for the life-long learning of the models. Firstly, we introduce the
ROad event Awareness Dataset (ROAD) for Autonomous Driving, to our knowledge
the first of its kind. Due to the lack of datasets equipped with formally
specified logical requirements, we also introduce the ROad event Awareness
Dataset with logical Requirements (ROAD-R), the first publicly available
dataset for autonomous driving with requirements expressed as logical
constraints, as a tool for driving neurosymbolic research in the area. Next, we
extend event detection to holistic scene understanding by proposing two complex
activity detection methods. In the first method, we present a deformable,
spatiotemporal scene graph approach, consisting of three main building blocks:
action tube detection, a 3D deformable RoI pooling layer designed for learning
the flexible, deformable geometry of the constituent action tubes, and a scene
graph constructed by considering all parts as nodes and connecting them based
on different semantics. In a second approach evolving from the first, we
propose a hybrid graph neural network that combines attention applied to a
graph encoding of the local (short-term) dynamic scene with a temporal graph
modelling the overall long-duration activity. Finally, the last part of the
thesis is about presenting a new continual semi-supervised learning (CSSL)
paradigm.
- Abstract(参考訳): ダイナミックシーン理解(dynamic scene understanding)とは、コンピュータシステムが実世界のシーンの映像に存在する視覚情報を解釈し、理解する能力である。
本稿では,自律運転の観点からの道路イベント検出から複雑な映像活動検出まで,動的シーン理解のための一連のフレームワークについて述べる。
まず,自動運転のための道路イベントアウェアネスデータセット(road)を,その1つ目の知識として紹介する。
また、公式に指定された論理的な要件を満たしたデータセットが不足していることから、この領域における神経シンボリックな研究を駆動するためのツールとして、論理的な制約として表現された、自動運転のための最初の公開データセットであるroad-r(way event awareness dataset with logical requirements)も紹介する。
次に,2つの複雑なアクティビティ検出手法を提案することにより,イベント検出を全体的シーン理解に拡張する。
第1の方法は,動作管検出,構成作用管の柔軟で変形可能な形状を学習するための3次元変形可能なroiプーリング層,すべての部分をノードとして考慮し,異なるセマンティクスに基づいてそれらを接続したシーングラフの3つの主要ビルディングブロックからなる変形可能な時空間的シーングラフアプローチを提案する。
第1のアプローチから進化した第2のアプローチでは、局所的な(短期的な)ダイナミックシーンのグラフエンコーディングに注意を向けるハイブリッドグラフニューラルネットワークと、全体の長期活動をモデル化した時間グラフを併用する。
最後に、論文の最後の部分は、新しい継続半教師付き学習(CSSL)パラダイムの提示である。
関連論文リスト
- MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - A Hybrid Graph Network for Complex Activity Detection in Video [40.843533889724924]
複雑なアクティビティ検出(CompAD)は、分析を長期的なアクティビティに拡張する。
本稿では,局所的な(短期的な)動的シーンを符号化したグラフに適用した注目と,全体の長期的活動をモデル化した時間グラフを組み合わせたハイブリッドグラフニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-10-26T15:49:35Z) - Spatio-Temporal Relation Learning for Video Anomaly Detection [35.59510027883497]
異常識別は、オブジェクトとシーンの関係に大きく依存する。
本稿では,ビデオ異常検出タスクに対処するための空間時間関係学習フレームワークを提案する。
3つの公開データセットで実験を行い、最先端手法よりも優れた性能を示し、本手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-09-27T02:19:31Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Learning Multi-Object Dynamics with Compositional Neural Radiance Fields [63.424469458529906]
本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。
NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。
提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
論文 参考訳(メタデータ) (2022-02-24T01:31:29Z) - Spot What Matters: Learning Context Using Graph Convolutional Networks
for Weakly-Supervised Action Detection [0.0]
ビデオにおける人間の行動検出を改善するために,自己注意と畳み込みネットワークに基づくアーキテクチャを導入する。
我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。
実験結果から, 文脈的アプローチはビデオ・mAPの2点以上で, ベースライン動作検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-28T21:37:18Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Understanding Dynamic Scenes using Graph Convolution Networks [22.022759283770377]
本稿では,移動カメラが捉えた時間順のフレーム列から道路車両の挙動をモデル化する新しい枠組みを提案する。
微調整に頼らずに複数のデータセットへの学習のシームレスな移行を示す。
このような振る舞い予測手法は,様々なナビゲーションタスクにおいて即時関連性を見出す。
論文 参考訳(メタデータ) (2020-05-09T13:05:06Z) - 3D Dynamic Scene Graphs: Actionable Spatial Perception with Places,
Objects, and Humans [27.747241700017728]
動作可能な空間知覚のための統一表現として,3次元ダイナミックシーングラフを提案する。
3D Dynamic Scene Graphsは、計画と意思決定、人間とロボットのインタラクション、長期的な自律性、シーン予測に大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2020-02-15T00:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。