論文の概要: EASE: Embodied Active Event Perception via Self-Supervised Energy Minimization
- arxiv url: http://arxiv.org/abs/2506.17516v1
- Date: Fri, 20 Jun 2025 23:45:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.456689
- Title: EASE: Embodied Active Event Perception via Self-Supervised Energy Minimization
- Title(参考訳): EASE: 自己監督型エネルギー最小化による身体活動イベント知覚
- Authors: Zhou Chen, Sanjoy Kundu, Harsimran S. Baweja, Sathyanarayanan N. Aakur,
- Abstract要約: アクティブイベント認識は、人間とAIのコラボレーション、補助ロボット工学、自律ナビゲーションといったタスクにおいて、インテリジェンスを具現化する上で不可欠である。
本稿では,自由エネルギーによる表現学習と具体化制御を一体化する自己教師型フレームワークであるEASEを提案する。
- 参考スコア(独自算出の注目度): 6.249768559720122
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Active event perception, the ability to dynamically detect, track, and summarize events in real time, is essential for embodied intelligence in tasks such as human-AI collaboration, assistive robotics, and autonomous navigation. However, existing approaches often depend on predefined action spaces, annotated datasets, and extrinsic rewards, limiting their adaptability and scalability in dynamic, real-world scenarios. Inspired by cognitive theories of event perception and predictive coding, we propose EASE, a self-supervised framework that unifies spatiotemporal representation learning and embodied control through free energy minimization. EASE leverages prediction errors and entropy as intrinsic signals to segment events, summarize observations, and actively track salient actors, operating without explicit annotations or external rewards. By coupling a generative perception model with an action-driven control policy, EASE dynamically aligns predictions with observations, enabling emergent behaviors such as implicit memory, target continuity, and adaptability to novel environments. Extensive evaluations in simulation and real-world settings demonstrate EASE's ability to achieve privacy-preserving and scalable event perception, providing a robust foundation for embodied systems in unscripted, dynamic tasks.
- Abstract(参考訳): アクティブなイベント知覚、動的にリアルタイムでイベントを検出し、追跡し、要約する能力は、人間とAIのコラボレーション、補助ロボティクス、自律ナビゲーションといったタスクにおいて、インテリジェンスを具現化する上で不可欠である。
しかし、既存のアプローチは、しばしば事前に定義されたアクション空間、注釈付きデータセット、および外在的な報酬に依存し、動的で現実世界のシナリオにおける適応性とスケーラビリティを制限する。
事象知覚と予測符号化の認知理論に着想を得て,時空間表現学習と自由エネルギー最小化による具体化制御を統一する自己教師型フレームワークであるEASEを提案する。
EASEは、固有の信号としての予測エラーとエントロピーを活用して、イベントのセグメンテーション、観察の要約、そして、明示的なアノテーションや外部の報酬なしでアクティブにサルエントアクターを追跡する。
生成的知覚モデルとアクション駆動制御ポリシを結合することにより、EASEは予測を観察と動的に整合させ、暗黙記憶、目標連続性、新しい環境への適応性などの創発的行動を可能にする。
シミュレーションと実世界の設定における広範囲な評価は、EASEがプライバシ保護とスケーラブルなイベント認識を実現する能力を示している。
関連論文リスト
- ADLGen: Synthesizing Symbolic, Event-Triggered Sensor Sequences for Human Activity Modeling [9.526073030523733]
ADLGenは、リアル、イベントトリガー、およびシンボリックセンサーシーケンスを合成するために設計された生成フレームワークである。
ADLGenは、統計的忠実度、セマンティックリッチネス、下流活動認識の検証において、ベースラインジェネレータよりも優れている。
論文 参考訳(メタデータ) (2025-05-23T14:52:48Z) - Unlocking Smarter Device Control: Foresighted Planning with a World Model-Driven Code Execution Approach [83.21177515180564]
本研究では,自然言語理解と構造化推論を優先し,エージェントの環境に対するグローバルな理解を高める枠組みを提案する。
本手法は,従来の手法,特にタスク成功率の44.4%向上を達成している。
論文 参考訳(メタデータ) (2025-05-22T09:08:47Z) - Free Energy Projective Simulation (FEPS): Active inference with interpretability [40.11095094521714]
FEP(Free Energy Projective Simulation)とAIF(Active Inference)は、多くの成功を収めている。
最近の研究は、最新の機械学習技術を取り入れた複雑な環境におけるエージェントの性能向上に重点を置いている。
ディープニューラルネットワークを使わずに解釈可能な方法でエージェントをモデル化するための自由エネルギー射影シミュレーション(FEPS)を導入する。
論文 参考訳(メタデータ) (2024-11-22T15:01:44Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Learning Self-Modulating Attention in Continuous Time Space with
Applications to Sequential Recommendation [102.24108167002252]
本稿では,複雑で非線形に進化する動的ユーザの嗜好をモデル化する,自己変調型注意ネットワークを提案する。
提案手法がトップNシーケンシャルなレコメンデーションタスクに与える影響を実証的に示すとともに,3つの大規模実世界のデータセットによる結果から,我々のモデルが最先端のパフォーマンスを達成できることを示す。
論文 参考訳(メタデータ) (2022-03-30T03:54:11Z) - Inference of Affordances and Active Motor Control in Simulated Agents [0.5161531917413706]
本稿では,出力確率,時間的予測,モジュール型人工ニューラルネットワークアーキテクチャを提案する。
我々のアーキテクチャは、割当マップと解釈できる潜在状態が発達していることを示す。
アクティブな推論と組み合わせることで、フレキシブルでゴール指向の動作が実行可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T14:13:04Z) - Towards Active Vision for Action Localization with Reactive Control and
Predictive Learning [8.22379888383833]
我々は、予測学習と反応制御を組み合わせたエネルギーベースのメカニズムを定式化し、報酬なしでアクティブな行動ローカライゼーションを行う。
提案手法は,明示的な報酬やトレーニングを伴わずに,ストリーミング方式でさまざまなタスクや環境に一般化できることを実証する。
論文 参考訳(メタデータ) (2021-11-09T23:16:55Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。