論文の概要: OnlineHOI: Towards Online Human-Object Interaction Generation and Perception
- arxiv url: http://arxiv.org/abs/2509.12250v1
- Date: Fri, 12 Sep 2025 06:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.64979
- Title: OnlineHOI: Towards Online Human-Object Interaction Generation and Perception
- Title(参考訳): OnlineHOI: オンラインヒューマンオブジェクトインタラクション生成と知覚を目指して
- Authors: Yihong Ji, Yunze Liu, Yiyao Zhuo, Weijiang Yu, Fei Ma, Joshua Huang, Fei Yu,
- Abstract要約: 本稿では,メモリ機構を利用するMambaフレームワークに基づくネットワークアーキテクチャであるOnlineHOIフレームワークを紹介する。
我々はCore4DとOAKINK2のオンライン生成タスクとHOI4Dのオンライン認識タスクについて最先端の結果を得た。
- 参考スコア(独自算出の注目度): 15.23967907336659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The perception and generation of Human-Object Interaction (HOI) are crucial for fields such as robotics, AR/VR, and human behavior understanding. However, current approaches model this task in an offline setting, where information at each time step can be drawn from the entire interaction sequence. In contrast, in real-world scenarios, the information available at each time step comes only from the current moment and historical data, i.e., an online setting. We find that offline methods perform poorly in an online context. Based on this observation, we propose two new tasks: Online HOI Generation and Perception. To address this task, we introduce the OnlineHOI framework, a network architecture based on the Mamba framework that employs a memory mechanism. By leveraging Mamba's powerful modeling capabilities for streaming data and the Memory mechanism's efficient integration of historical information, we achieve state-of-the-art results on the Core4D and OAKINK2 online generation tasks, as well as the online HOI4D perception task.
- Abstract(参考訳): ヒューマン・オブジェクト・インタラクション(HOI)の認識と生成は、ロボット工学、AR/VR、人間の行動理解といった分野に不可欠である。
しかし、現在のアプローチでは、このタスクをオフライン設定でモデル化しており、各タイムステップの情報は、インタラクションシーケンス全体から引き出すことができる。
対照的に、現実世界のシナリオでは、各ステップで利用可能な情報は、現在の瞬間と過去のデータ、すなわちオンライン設定からしか得られない。
オフラインのメソッドは、オンラインのコンテキストではパフォーマンスが悪くなります。
そこで本研究では,オンラインHOI生成と知覚という2つの新しいタスクを提案する。
この課題に対処するために,メモリ機構を用いたMambaフレームワークに基づくネットワークアーキテクチャであるOnlineHOIフレームワークを紹介する。
ストリーミングデータに対するMambaの強力なモデリング機能と、メモリメカニズムによる履歴情報の効率的な統合を活用して、Core4DおよびOAKINK2オンライン生成タスク、およびオンラインHOI4D知覚タスクの最先端結果を得る。
関連論文リスト
- Offline vs. Online Learning in Model-based RL: Lessons for Data Collection Strategies [41.452036409068235]
データ収集は、モデルベースの強化学習において、堅牢な世界モデルを学ぶために不可欠である。
世界のモデルにおけるオンライン対オフラインのデータと結果のタスクパフォーマンスは、文献では十分に研究されていない。
オフラインエージェントのパフォーマンス劣化の鍵となる課題は、テスト時にアウトオフ・ディストリビューション状態に遭遇することである。
固定スケジュールや適応スケジュールで追加のオンラインインタラクションを行うことで、この問題を緩和できることを実証する。
論文 参考訳(メタデータ) (2025-09-06T14:52:33Z) - Agentic Web: Weaving the Next Web with AI Agents [109.13815627467514]
大規模言語モデル(LLM)を活用したAIエージェントの出現は、エージェントWebに対する重要な転換点である。
このパラダイムでは、エージェントが直接対話して、ユーザに代わって複雑なタスクを計画、コーディネート、実行します。
本稿では,エージェントWebの理解と構築のための構造化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-28T17:58:12Z) - Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence [109.32705135051486]
Embodied Web Agentsは、エンボディメントとWebスケール推論を流動的にブリッジする、AIエージェントのための新しいパラダイムである。
多様なタスクスイートを含むEmbodied Web Agents Benchmarkをリリースする。
その結果、最先端のAIシステムと人間の能力の間には、大きなパフォーマンスのギャップが浮かび上がっている。
論文 参考訳(メタデータ) (2025-06-18T17:58:17Z) - Online hand gesture recognition using Continual Graph Transformers [1.3927943269211591]
リアルタイムスケルトンシーケンスストリーミングのための新しいオンライン認識システムを提案する。
提案手法は最先端の精度を実現し, 偽陽性率を大幅に低減し, リアルタイムアプリケーションにとって魅力的なソリューションとなる。
提案システムは,人間とロボットのコラボレーションや補助技術など,さまざまな領域にシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-02-20T17:27:55Z) - Online Video Understanding: OVBench and VideoChat-Online [22.814813541695997]
マルチモーダル大言語モデル(MLLM)はオフラインビデオ理解において著しく進歩している。
これらのモデルを自律運転や人間とコンピュータのインタラクションといった現実のシナリオに適用することは、ユニークな課題を提示します。
本稿では,評価ベンチマーク,モデルアーキテクチャ,トレーニング戦略の3つの観点から,体系的な取り組みについて述べる。
論文 参考訳(メタデータ) (2024-12-31T18:17:05Z) - ActNetFormer: Transformer-ResNet Hybrid Method for Semi-Supervised Action Recognition in Videos [4.736059095502584]
本研究は,半教師付き行動認識のためのコントラスト学習を用いたクロスアーキテクチャ擬似ラベルを用いた新しい手法を提案する。
本稿では,3次元畳み込みニューラルネットワーク(3D CNN)とビデオトランスフォーマー(VIT)を用いて,アクション表現の異なる側面を捉える,新しいクロスアーキテクチャ手法を提案する。
論文 参考訳(メタデータ) (2024-04-09T12:09:56Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - ArK: Augmented Reality with Knowledge Interactive Emergent Ability [115.72679420999535]
基礎モデルから新しいドメインへの知識記憶の伝達を学習する無限エージェントを開発する。
私たちのアプローチの核心は、Augmented Reality with Knowledge Inference Interaction (ArK)と呼ばれる新しいメカニズムである。
我々のArKアプローチは,大規模な基礎モデルと組み合わせることで,生成された2D/3Dシーンの品質を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-05-01T17:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。