論文の概要: FORESCENE: FOREcasting human activity via latent SCENE graphs diffusion
- arxiv url: http://arxiv.org/abs/2503.06182v1
- Date: Sat, 08 Mar 2025 11:56:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:49:17.225464
- Title: FORESCENE: FOREcasting human activity via latent SCENE graphs diffusion
- Title(参考訳): FORESCENE:潜伏SCENEグラフ拡散によるヒト活動予測
- Authors: Antonio Alliegro, Francesca Pistilli, Tatiana Tommasi, Giuseppe Averta,
- Abstract要約: 我々は、オブジェクトと関係の進化を時間とともに予測するSGA(Scene Graph Precipation)フレームワークであるForceCENEを紹介する。
我々のアプローチは、グラフの内容や構造を仮定することなく、相互作用力学の連続的な予測を可能にする。
- 参考スコア(独自算出の注目度): 12.960770039147587
- License:
- Abstract: Forecasting human-environment interactions in daily activities is challenging due to the high variability of human behavior. While predicting directly from videos is possible, it is limited by confounding factors like irrelevant objects or background noise that do not contribute to the interaction. A promising alternative is using Scene Graphs (SGs) to track only the relevant elements. However, current methods for forecasting future SGs face significant challenges and often rely on unrealistic assumptions, such as fixed objects over time, limiting their applicability to long-term activities where interacted objects may appear or disappear. In this paper, we introduce FORESCENE, a novel framework for Scene Graph Anticipation (SGA) that predicts both object and relationship evolution over time. FORESCENE encodes observed video segments into a latent representation using a tailored Graph Auto-Encoder and forecasts future SGs using a Latent Diffusion Model (LDM). Our approach enables continuous prediction of interaction dynamics without making assumptions on the graph's content or structure. We evaluate FORESCENE on the Action Genome dataset, where it outperforms existing SGA methods while solving a significantly more complex task.
- Abstract(参考訳): 日常生活における人間と環境の相互作用の予測は、人間の行動の多様性が高いため困難である。
ビデオから直接予測することは可能だが、無関係なオブジェクトや、インタラクションに寄与しないバックグラウンドノイズなどの要因を埋め合わせることで制限される。
有望な代替手段は、Scene Graphs(SG)を使用して関連する要素のみを追跡することだ。
しかしながら、将来のSGを予測するための現在の手法は重大な課題に直面しており、多くの場合、時間とともに固定されたオブジェクトのような非現実的な仮定に依存し、相互作用したオブジェクトが出現または消失する可能性のある長期的なアクティビティに適用性を制限する。
本稿では,SGA(Scene Graph Precipation)のための新しいフレームワークであるForesceneを紹介し,時間とともにオブジェクトと関係の進化を予測する。
FORESCENEは、調整されたグラフオートエンコーダを用いて、観察されたビデオセグメントを潜在表現にエンコードし、潜在拡散モデル(LDM)を用いて将来のSGを予測する。
我々のアプローチは、グラフの内容や構造を仮定することなく、相互作用力学の連続的な予測を可能にする。
我々は、Action Genome データセット上で FORESCENE を評価し、既存の SGA メソッドよりも優れ、さらに複雑なタスクを解く。
関連論文リスト
- Gated Temporal Diffusion for Stochastic Long-Term Dense Anticipation [17.4088244981231]
長期的な行動予測は、自律運転や人間とロボットの相互作用など、多くのアプリケーションにとって重要な課題となっている。
本稿では,Gated Temporal Diffusion (GTD) ネットワークを提案する。
我々のモデルは、Breakfast、Ambly101、50Saladsの両方の決定論的設定で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-07-16T17:48:05Z) - Local-Global Information Interaction Debiasing for Dynamic Scene Graph
Generation [51.92419880088668]
マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。
長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。
論文 参考訳(メタデータ) (2023-08-10T01:24:25Z) - Unbiased Scene Graph Generation in Videos [36.889659781604564]
TEMPURA: temporal consistency and Memory-guided UnceRtainty Attenuation for unbiased dynamic SGG。
TEMPURAはトランスフォーマーシーケンスモデリングによってオブジェクトレベルの時間的整合性を採用し、バイアスのない関係表現を合成することを学ぶ。
提案手法は,既存手法に比べて大きな性能向上(場合によっては最大10%)を達成している。
論文 参考訳(メタデータ) (2023-04-03T06:10:06Z) - Graphing the Future: Activity and Next Active Object Prediction using
Graph-based Activity Representations [0.0]
本稿では,映像中の人間と物体の相互作用を視覚的に予測するための新しい手法を提案する。
我々は(a)現在進行中の人間と物体の相互作用のクラスと(b)次のアクティブオブジェクト(NAOs)のクラスを予測することを目指している。
動作予測とNAO予測の両方において高い予測精度が得られた。
論文 参考訳(メタデータ) (2022-09-12T12:32:24Z) - DisenHCN: Disentangled Hypergraph Convolutional Networks for
Spatiotemporal Activity Prediction [53.76601630407521]
本稿では,既存のソリューションのギャップを埋めるために,DistenHCNと呼ばれるハイパーグラフネットワークモデルを提案する。
特に,ユーザの好みと時間的活動の複雑なマッチングをヘテロジニアスなハイパーグラフにまとめる。
次に、ユーザ表現を異なる側面(位置認識、時間認識、活動認識)に切り離し、構築したハイパーグラフ上に対応するアスペクトの特徴を集約する。
論文 参考訳(メタデータ) (2022-08-14T06:51:54Z) - Conditioned Human Trajectory Prediction using Iterative Attention Blocks [70.36888514074022]
本研究では,都市環境における歩行者位置予測を目的とした,簡易かつ効果的な歩行者軌道予測モデルを提案する。
我々のモデルは、複数のアテンションブロックとトランスフォーマーを反復的に実行できるニューラルネットワークアーキテクチャである。
ソーシャルマスク, 動的モデル, ソーシャルプーリング層, 複雑なグラフのような構造を明示的に導入することなく, SoTAモデルと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T07:49:48Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - SGCN:Sparse Graph Convolution Network for Pedestrian Trajectory
Prediction [64.16212996247943]
歩行者軌道予測のためのスパースグラフ畳み込みネットワーク(SGCN)を提案する。
具体的には、SGCNはスパース指向の相互作用をスパース指向の空間グラフと明確にモデル化し、適応的な相互作用歩行者を捉える。
可視化は,歩行者の適応的相互作用とその運動特性を捉えることができることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:17:42Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z) - A Novel Graph based Trajectory Predictor with Pseudo Oracle [15.108410951760131]
GTPPOは、歩行者の将来の行動に配慮したエンコーダデコーダに基づく手法である。
ETH、UCY、Stanford Droneのデータセットで評価されている。
論文 参考訳(メタデータ) (2020-02-02T13:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。