論文の概要: Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding
- arxiv url: http://arxiv.org/abs/2510.10682v1
- Date: Sun, 12 Oct 2025 16:10:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.064197
- Title: Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding
- Title(参考訳): オンライン行動理解のための行動動態モデリングと時間間相互作用
- Authors: Xinyu Yang, Zheheng Jiang, Feixiang Zhou, Yihang Zhu, Na Lv, Nan Xing, Huiyu Zhou,
- Abstract要約: 行動検出と予測を含む行動理解は、多くの実践的応用において重要な役割を担っている。
本研究では,アクション検出と予測タスクの統合と強化を目的とした,ステート・スペクティフィック・モデル(SSM)と呼ばれる新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.87664450145037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action understanding, encompassing action detection and anticipation, plays a crucial role in numerous practical applications. However, untrimmed videos are often characterized by substantial redundant information and noise. Moreover, in modeling action understanding, the influence of the agent's intention on the action is often overlooked. Motivated by these issues, we propose a novel framework called the State-Specific Model (SSM), designed to unify and enhance both action detection and anticipation tasks. In the proposed framework, the Critical State-Based Memory Compression module compresses frame sequences into critical states, reducing information redundancy. The Action Pattern Learning module constructs a state-transition graph with multi-dimensional edges to model action dynamics in complex scenarios, on the basis of which potential future cues can be generated to represent intention. Furthermore, our Cross-Temporal Interaction module models the mutual influence between intentions and past as well as current information through cross-temporal interactions, thereby refining present and future features and ultimately realizing simultaneous action detection and anticipation. Extensive experiments on multiple benchmark datasets -- including EPIC-Kitchens-100, THUMOS'14, TVSeries, and the introduced Parkinson's Disease Mouse Behaviour (PDMB) dataset -- demonstrate the superior performance of our proposed framework compared to other state-of-the-art approaches. These results highlight the importance of action dynamics learning and cross-temporal interactions, laying a foundation for future action understanding research.
- Abstract(参考訳): 行動検出と予測を含む行動理解は、多くの実践的応用において重要な役割を担っている。
しかし、トリミングされていないビデオは、しばしばかなりの冗長な情報とノイズによって特徴づけられる。
さらに、アクション理解のモデル化において、エージェントの意図がアクションに与える影響は、しばしば見過ごされる。
これらの課題に乗じて,アクション検出と予測タスクの統合と強化を目的とした,ステート・スペクティフィック・モデル(SSM)と呼ばれる新しいフレームワークを提案する。
提案したフレームワークでは、Critical State-Based Memory Compressionモジュールがフレーム列をクリティカルな状態に圧縮し、情報冗長性を低減している。
Action Pattern Learningモジュールは、多次元エッジを持つ状態遷移グラフを構築し、複雑なシナリオにおけるアクションダイナミクスをモデル化する。
さらに,我々のクロステンポラル・インタラクション・モジュールは,意図と過去の相互影響と,時空間的相互作用による現在の情報とをモデル化し,現在と将来の特徴を洗練し,最終的には同時行動検出と予測を実現する。
EPIC-Kitchens-100、THUMOS'14、TVSeries、導入したParkinson's Disease Mouse Behaviour(PDMB)データセットなど、複数のベンチマークデータセットに関する大規模な実験は、他の最先端アプローチと比較して、提案したフレームワークの優れたパフォーマンスを示している。
これらの結果は、行動力学学習と時間的相互作用の重要性を強調し、将来の行動理解研究の基礎を築いた。
関連論文リスト
- Foundation Model for Skeleton-Based Human Action Understanding [56.89025287217221]
本稿では,統一骨格に基づくDense Representation Learningフレームワークを提案する。
USDRLはトランスフォーマーベースのDense Spatio-Temporal (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
論文 参考訳(メタデータ) (2025-08-18T02:42:16Z) - Mitigating Attention Hacking in Preference-Based Reward Modeling via Interaction Distillation [62.14692332209628]
インタラクション蒸留(Interaction Distillation)は、注意レベル最適化によるより適切な嗜好モデリングのための新しいトレーニングフレームワークである。
最先端のRM最適化法と比較して、より安定で一般化可能な報酬信号を提供する。
論文 参考訳(メタデータ) (2025-08-04T17:06:23Z) - ILNet: Trajectory Prediction with Inverse Learning Attention for Enhancing Intention Capture [4.190790144182306]
人間のドライバーは、車両を取り巻く意図に関する仮定に基づいて、初期運転決定を動的に調整することが認められている。
Inverse Learning (IL) attentionとDynamic Anchor SelectionDAS (DAS) moduleを用いたマルチエージェント軌道予測手法であるILNetを提案する。
実験の結果,ILNet はInterAction と Argoverse の動作予測データセット上で,最先端の性能を達成していることがわかった。
論文 参考訳(メタデータ) (2025-07-09T04:18:01Z) - Disentangled Neural Relational Inference for Interpretable Motion
Prediction [38.40799770648501]
グラフベース表現と時系列モデルを統合した変分自動エンコーダフレームワークを開発した。
本モデルでは,対話を特徴付ける解釈可能なエッジ特徴を付加した動的相互作用グラフを推論する。
シミュレーションと実世界の両方のデータセットに関する広範な実験を通じて、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-01-07T22:49:24Z) - Leveraging Next-Active Objects for Context-Aware Anticipation in
Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。
本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。
我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文 参考訳(メタデータ) (2023-08-16T12:07:02Z) - Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。
次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文 参考訳(メタデータ) (2022-04-25T19:06:48Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。