Fugu-MT 論文翻訳(概要): Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding

論文の概要: Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding

arxiv url: http://arxiv.org/abs/2510.10682v1
Date: Sun, 12 Oct 2025 16:10:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-14 18:06:30.064197
Title: Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding
Title（参考訳）: オンライン行動理解のための行動動態モデリングと時間間相互作用
Authors: Xinyu Yang, Zheheng Jiang, Feixiang Zhou, Yihang Zhu, Na Lv, Nan Xing, Huiyu Zhou,
Abstract要約: 行動検出と予測を含む行動理解は、多くの実践的応用において重要な役割を担っている。本研究では,アクション検出と予測タスクの統合と強化を目的とした,ステート・スペクティフィック・モデル(SSM)と呼ばれる新しいフレームワークを提案する。
参考スコア（独自算出の注目度）: 23.87664450145037
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Action understanding, encompassing action detection and anticipation, plays a crucial role in numerous practical applications. However, untrimmed videos are often characterized by substantial redundant information and noise. Moreover, in modeling action understanding, the influence of the agent's intention on the action is often overlooked. Motivated by these issues, we propose a novel framework called the State-Specific Model (SSM), designed to unify and enhance both action detection and anticipation tasks. In the proposed framework, the Critical State-Based Memory Compression module compresses frame sequences into critical states, reducing information redundancy. The Action Pattern Learning module constructs a state-transition graph with multi-dimensional edges to model action dynamics in complex scenarios, on the basis of which potential future cues can be generated to represent intention. Furthermore, our Cross-Temporal Interaction module models the mutual influence between intentions and past as well as current information through cross-temporal interactions, thereby refining present and future features and ultimately realizing simultaneous action detection and anticipation. Extensive experiments on multiple benchmark datasets -- including EPIC-Kitchens-100, THUMOS'14, TVSeries, and the introduced Parkinson's Disease Mouse Behaviour (PDMB) dataset -- demonstrate the superior performance of our proposed framework compared to other state-of-the-art approaches. These results highlight the importance of action dynamics learning and cross-temporal interactions, laying a foundation for future action understanding research.
Abstract（参考訳）: 行動検出と予測を含む行動理解は、多くの実践的応用において重要な役割を担っている。しかし、トリミングされていないビデオは、しばしばかなりの冗長な情報とノイズによって特徴づけられる。さらに、アクション理解のモデル化において、エージェントの意図がアクションに与える影響は、しばしば見過ごされる。これらの課題に乗じて,アクション検出と予測タスクの統合と強化を目的とした,ステート・スペクティフィック・モデル(SSM)と呼ばれる新しいフレームワークを提案する。提案したフレームワークでは、Critical State-Based Memory Compressionモジュールがフレーム列をクリティカルな状態に圧縮し、情報冗長性を低減している。 Action Pattern Learningモジュールは、多次元エッジを持つ状態遷移グラフを構築し、複雑なシナリオにおけるアクションダイナミクスをモデル化する。さらに,我々のクロステンポラル・インタラクション・モジュールは,意図と過去の相互影響と,時空間的相互作用による現在の情報とをモデル化し,現在と将来の特徴を洗練し,最終的には同時行動検出と予測を実現する。 EPIC-Kitchens-100、THUMOS'14、TVSeries、導入したParkinson's Disease Mouse Behaviour(PDMB)データセットなど、複数のベンチマークデータセットに関する大規模な実験は、他の最先端アプローチと比較して、提案したフレームワークの優れたパフォーマンスを示している。これらの結果は、行動力学学習と時間的相互作用の重要性を強調し、将来の行動理解研究の基礎を築いた。

関連論文リスト

From Perception to Action: An Interactive Benchmark for Vision Reasoning [51.11355591375073]
Causal Hierarchy of Actions and Interactions (CHAIN)ベンチマークは、モデルが物理的制約に基づいて構造化されたアクションシーケンスを理解し、計画し、実行できるかを評価するために設計された。 CHAINは、受動的知覚からアクティブな問題解決、機械パズルのインターロックや3D積み重ね、パッキングといったタスクへと評価をシフトする。以上の結果から,トップパフォーマンスモデルでは,物理構造や因果制約の内在化に苦慮し,信頼性の高い長期計画の作成に失敗することが多く,認識された構造を効果的に翻訳することができないことが示唆された。
論文参考訳（メタデータ） (2026-02-24T15:33:02Z)
Multi-Agent Model-Based Reinforcement Learning with Joint State-Action Learned Embeddings [10.36125908359289]
モデルに基づくマルチエージェント強化学習フレームワークを提案する。我々は変分自動エンコーダで訓練された世界モデルを設計し、状態-作用学習埋め込みを用いてモデルを増強する。想像された軌道とSALEに基づく行動値とを結合することにより、エージェントは彼らの選択が集団的な結果にどのように影響するかをより深く理解する。
論文参考訳（メタデータ） (2026-02-13T01:57:21Z)
Flow Matching-Based Autonomous Driving Planning with Advanced Interactive Behavior Modeling [26.71028572181775]
複雑なシナリオにおけるインタラクティブな運転行動のモデリングは、自動運転計画の根本的な課題である。データモデリング、モデルアーキテクチャ、学習スキームの協調的な革新を通じて、これらの問題に対処するフロープランナを提案する。 Flow Plannerは、複雑な運転シナリオにおけるインタラクティブな振る舞いを効果的にモデル化しながら、学習ベースのアプローチ間で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-10-13T07:25:13Z)
Foundation Model for Skeleton-Based Human Action Understanding [56.89025287217221]
本稿では,統一骨格に基づくDense Representation Learningフレームワークを提案する。 USDRLはトランスフォーマーベースのDense Spatio-Temporal (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
論文参考訳（メタデータ） (2025-08-18T02:42:16Z)
Mitigating Attention Hacking in Preference-Based Reward Modeling via Interaction Distillation [62.14692332209628]
インタラクション蒸留(Interaction Distillation)は、注意レベル最適化によるより適切な嗜好モデリングのための新しいトレーニングフレームワークである。最先端のRM最適化法と比較して、より安定で一般化可能な報酬信号を提供する。
論文参考訳（メタデータ） (2025-08-04T17:06:23Z)
ILNet: Trajectory Prediction with Inverse Learning Attention for Enhancing Intention Capture [4.190790144182306]
人間のドライバーは、車両を取り巻く意図に関する仮定に基づいて、初期運転決定を動的に調整することが認められている。 Inverse Learning (IL) attentionとDynamic Anchor SelectionDAS (DAS) moduleを用いたマルチエージェント軌道予測手法であるILNetを提案する。実験の結果,ILNet はInterAction と Argoverse の動作予測データセット上で,最先端の性能を達成していることがわかった。
論文参考訳（メタデータ） (2025-07-09T04:18:01Z)
Disentangled Neural Relational Inference for Interpretable Motion Prediction [38.40799770648501]
グラフベース表現と時系列モデルを統合した変分自動エンコーダフレームワークを開発した。本モデルでは,対話を特徴付ける解釈可能なエッジ特徴を付加した動的相互作用グラフを推論する。シミュレーションと実世界の両方のデータセットに関する広範な実験を通じて、我々のアプローチを検証する。
論文参考訳（メタデータ） (2024-01-07T22:49:24Z)
Leveraging Next-Active Objects for Context-Aware Anticipation in Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文参考訳（メタデータ） (2023-08-16T12:07:02Z)
Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文参考訳（メタデータ） (2022-04-25T19:06:48Z)
Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。 SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文参考訳（メタデータ） (2021-11-23T03:29:18Z)
Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文参考訳（メタデータ） (2020-10-27T13:17:18Z)
Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文参考訳（メタデータ） (2020-03-09T17:05:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。