論文の概要: Rethinking Video Human-Object Interaction: Set Prediction over Time for Unified Detection and Anticipation
- arxiv url: http://arxiv.org/abs/2604.10397v1
- Date: Sun, 12 Apr 2026 01:07:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.991771
- Title: Rethinking Video Human-Object Interaction: Set Prediction over Time for Unified Detection and Anticipation
- Title(参考訳): 映像と物体の相互作用を再考する:一元的検出と予測のための時間的セット予測
- Authors: Yuanhao Luo, Di Wen, Kunyu Peng, Ruiping Liu, Junwei Zheng, Yufan Chen, Jiale Wei, Rainer Stiefelhage,
- Abstract要約: ビデオベースヒューマンオブジェクトインタラクション(HOI)の理解には、進行中のインタラクションを検出し、将来の進化を予測する必要がある。
対象対象の局所化,現在のHOI検出,将来の予測を共同で行う,ペア中心のフレームワークであるDETAnt-HOIとHOI-DAを紹介する。
実験では、検出と予測の両方において一貫した改善が見られ、より長い地平線でより大きな利得が得られた。
- 参考スコア(独自算出の注目度): 18.693454975393703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-based human-object interaction (HOI) understanding requires both detecting ongoing interactions and anticipating their future evolution. However, existing methods usually treat anticipation as a downstream forecasting task built on externally constructed human-object pairs, limiting joint reasoning between detection and prediction. In addition, sparse keyframe annotations in current benchmarks can temporally misalign nominal future labels from actual future dynamics, reducing the reliability of anticipation evaluation. To address these issues, we introduce DETAnt-HOI, a temporally corrected benchmark derived from VidHOI and Action Genome for more faithful multi-horizon evaluation, and HOI-DA, a pair-centric framework that jointly performs subject-object localization, present HOI detection, and future anticipation by modeling future interactions as residual transitions from current pair states. Experiments show consistent improvements in both detection and anticipation, with larger gains at longer horizons. Our results highlight that anticipation is most effective when learned jointly with detection as a structural constraint on pair-level video representation learning. Benchmark and code will be publicly available.
- Abstract(参考訳): ビデオベースヒューマンオブジェクトインタラクション(HOI)の理解には、進行中のインタラクションを検出し、将来の進化を予測する必要がある。
しかし、既存の手法では、予測を外部構築された人間と物体のペアの上に構築した下流予測タスクとして扱うことが多く、検出と予測の間の共同推論を制限している。
さらに、現在のベンチマークにおける疎結合なキーフレームアノテーションは、実際の将来のダイナミクスから、時間的に名目上の将来のラベルを誤認する可能性があるため、予測評価の信頼性が低下する。
これらの問題に対処するために、より忠実なマルチ水平評価のためにVidHOIとAction Genomeから得られた時間補正ベンチマークであるDETAnt-HOIと、現在のペア状態からの残留遷移として将来の相互作用をモデル化して、主観的局所化、現在のHOI検出、将来の予測を行うペア中心フレームワークであるHOI-DAを紹介する。
実験では、検出と予測の両方において一貫した改善が見られ、より長い地平線でより大きな利得が得られた。
その結果,ペアレベルのビデオ表現学習における構造的制約として,検出と共同で学習した場合,予測が最も効果的であることが示唆された。
ベンチマークとコードは公開されている。
関連論文リスト
- LatentPilot: Scene-Aware Vision-and-Language Navigation by Dreaming Ahead with Latent Visual Reasoning [51.969318585152116]
LatentPilotは、トレーニング中の将来の観察を貴重なデータソースとして利用して、アクション条件付きビジュアルダイナミクスを学習する。
そこで本稿では,フライホイール方式のトレーニング機構を提案する。これは,道路上の軌道を反復的に収集し,エージェントの行動分布に適合するようにモデルを再訓練する。
R2R-CE、RxR-CE、R2R-PEベンチマークの実験では新たなSOTA結果が得られた。
論文 参考訳(メタデータ) (2026-03-31T02:21:59Z) - SHARP: Short-Window Streaming for Accurate and Robust Prediction in Motion Forecasting [53.74101174559609]
本稿では,進化するシーンに特化して焦点をあてた,ストリーミングベースの新たな動き予測フレームワークを提案する。
本手法は,入ってくる観測ウィンドウを段階的に処理し,インスタンス対応コンテキストストリーミングを利用して潜時エージェント表現の維持と更新を行う。
我々のモデルは,Argoverse 2マルチエージェントベンチマークのストリーミング推論における最先端性能を実現し,遅延を最小限に抑えながら,実世界の展開に適していることを強調した。
論文 参考訳(メタデータ) (2026-03-30T06:47:19Z) - FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model [73.03346643967309]
我々は、効果的な共同運動予測モデルには、時間的連続性と視覚的条件による監督的疎結合の両方が必要であると論じる。
FutureVLAは、視覚情報と運動情報を最初に分離することで、関節振動子埋め込みを抽出するように設計されている。
訓練後の段階において、我々は遅延埋め込みアライメント戦略を採用し、様々な下流VLAモデルによりこれらの時間的先行を内部化することができる。
論文 参考訳(メタデータ) (2026-03-11T12:39:55Z) - UAHOI: Uncertainty-aware Robust Interaction Learning for HOI Detection [18.25576487115016]
本稿では,Human-Object Interaction(HOI)検出について述べる。
与えられた画像やビデオフレーム内の人間とオブジェクト間の相互作用を識別し、理解するという課題に対処する。
本研究では,不確実性を考慮したロバストなヒューマンオブジェクトインタラクション学習であるtextscUAHOIを提案する。
論文 参考訳(メタデータ) (2024-08-14T10:06:39Z) - Gated Temporal Diffusion for Stochastic Long-Term Dense Anticipation [17.4088244981231]
長期的な行動予測は、自律運転や人間とロボットの相互作用など、多くのアプリケーションにとって重要な課題となっている。
本稿では,Gated Temporal Diffusion (GTD) ネットワークを提案する。
我々のモデルは、Breakfast、Ambly101、50Saladsの両方の決定論的設定で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-07-16T17:48:05Z) - Diff-IP2D: Diffusion-Based Hand-Object Interaction Prediction on Egocentric Videos [22.81433371521832]
そこで我々は,Diff-IP2Dを提案する。
提案手法は,市販のメトリクスと新たに提案した評価プロトコルの両方において,最先端のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2024-05-07T14:51:05Z) - Neural Interaction Energy for Multi-Agent Trajectory Prediction [55.098754835213995]
ニューラル・インタラクション・エナジー(MATE)によるマルチエージェント軌道予測(Multi-Agent Trajectory Prediction)というフレームワークを導入する。
MATEは神経相互作用エネルギーを用いてエージェントの対話運動を評価する。
時間的安定性を高めるために,エージェント間相互作用制約とエージェント内動作制約という2つの制約を導入する。
論文 参考訳(メタデータ) (2024-04-25T12:47:47Z) - Streaming Motion Forecasting for Autonomous Driving [71.7468645504988]
ストリーミングデータにおける将来の軌跡を問うベンチマークを導入し,これを「ストリーミング予測」と呼ぶ。
我々のベンチマークは本質的に、スナップショットベースのベンチマークでは見過ごされていない安全上の問題であるエージェントの消失と再出現を捉えている。
我々は,任意のスナップショットベースの予測器をストリーミング予測器に適応させることのできる,"Predictive Streamer"と呼ばれるプラグアンドプレイメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-02T17:13:16Z) - Parallel Reasoning Network for Human-Object Interaction Detection [53.422076419484945]
並列推論ネットワーク(PR-Net)というトランスフォーマーに基づく新しい手法を提案する。
PR-Netは、インスタンスレベルのローカライゼーションと関係レベルの理解のための2つの独立した予測器を構築する。
我々のPR-NetはHICO-DETとV-COCOベンチマークで競合する結果を得た。
論文 参考訳(メタデータ) (2023-01-09T17:00:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。