Fugu-MT 論文翻訳(概要): Int3DNet: Scene-Motion Cross Attention Network for 3D Intention Prediction in Mixed Reality

論文の概要: Int3DNet: Scene-Motion Cross Attention Network for 3D Intention Prediction in Mixed Reality

arxiv url: http://arxiv.org/abs/2603.13355v1
Date: Mon, 09 Mar 2026 00:59:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 16:19:35.115669
Title: Int3DNet: Scene-Motion Cross Attention Network for 3D Intention Prediction in Mixed Reality
Title（参考訳）: Int3DNet:複合現実感における3次元意図予測のためのシーン移動型クロスアテンションネットワーク
Authors: Taewook Ha, Woojin Cho, Dooyoung Kim, Woontack Woo,
Abstract要約: Int3DNetはシーンの形状や手の動きから3次元の意図領域を直接予測する,シーン認識型ネットワークである。 MR(Mixed Reality)では、システムがユーザの行動を予測し、積極的に応答できるようにするため、意図予測が重要である。
参考スコア（独自算出の注目度）: 14.656502697633103
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose Int3DNet, a scene-aware network that predicts 3D intention areas directly from scene geometry and head-hand motion cues, enabling robust human intention prediction without explicit object-level perception. In Mixed Reality (MR), intention prediction is critical as it enables the system to anticipate user actions and respond proactively, reducing interaction delays and ensuring seamless user experiences. Our method employs a cross attention fusion of sparse motion cues and scene point clouds, offering a novel approach that directly interprets the user's spatial intention within the scene. We evaluated Int3DNet on MoGaze and CIRCLE datasets, which are public datasets for full-body human-scene interactions, showing consistent performance across time horizons of up to 1500 ms and outperforming the baselines, even in diverse and unseen scenes. Moreover, we demonstrate the usability of proposed method through a demonstration of efficient visual question answering (VQA) based on intention areas. Int3DNet provides reliable 3D intention areas derived from head-hand motion and scene geometry, thus enabling seamless interaction between humans and MR systems through proactive processing of intention areas.
Abstract（参考訳）: Int3DNetは、シーン形状や頭部の動きの手がかりから直接3次元の意図領域を予測し、オブジェクトレベルを明示せずに頑健な人間の意図予測を可能にする。 MR(Mixed Reality)では、システムがユーザの行動を予測し、積極的に応答し、インタラクションの遅延を低減し、シームレスなユーザエクスペリエンスを確保するため、意図的な予測が重要である。本手法では,シーン内のユーザの空間的意図を直接解釈する新たなアプローチとして,スパースモーションキューとシーンポイントクラウドの相互注意融合を用いる。 Int3DNetをMoGazeとCIRCLEのデータセットで評価した。これはフルボディの人間とシーンのインタラクションのための公開データセットであり、1500msまでの時間水平線で一貫したパフォーマンスを示し、多様で見えないシーンでもベースラインを上回ります。さらに,意図的領域に基づく視覚的質問応答(VQA)の実証を通じて,提案手法のユーザビリティを示す。 Int3DNetは、手動とシーン幾何学から導かれる信頼性の高い3次元意図領域を提供し、故意領域の積極的な処理を通じて人間とMRシステム間のシームレスな相互作用を可能にする。

関連論文リスト

RoboPCA: Pose-centered Affordance Learning from Human Demonstrations for Robot Manipulation [35.68205801897266]
RoboPCAはポーズ中心の価格予測フレームワークで、タスクに適した接触領域を共同で予測し、指示に応じてポーズを付ける。 Human2Affordは、シーンレベルの3D情報を自動的に復元し、人間のデモからポーズ中心の価格アノテーションを推論するデータキュレーションパイプラインである。 RoboPCAは、イメージデータセット、シミュレーション、実際のロボットのベースライン手法よりも優れており、タスクやカテゴリをまたいだ強力な一般化を示している。
論文参考訳（メタデータ） (2026-03-08T15:46:04Z)
REACT3D: Recovering Articulations for Interactive Physical 3D Scenes [96.27769519526426]
REACT3Dは静的な3Dシーンを一貫した幾何学を持つシミュレーション可能なインタラクティブなレプリカに変換するフレームワークである。室内の様々な場面における検出・分離・調音計測における最先端性能について検討した。
論文参考訳（メタデータ） (2025-10-13T12:37:59Z)
Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文参考訳（メタデータ） (2024-12-02T11:33:55Z)
Multimodal Sense-Informed Prediction of 3D Human Motions [16.71099574742631]
本研究は,2つのモーダル情報に対して高忠実度を生成するマルチモーダル・インフォームド・モーション・予測手法を提案する。視線情報は人間の意図と見なされ、動きとシーンの特徴が組み合わさって、世代を監督するために第3の意図に注意を向ける。実世界の2つのベンチマークにおいて,提案手法は3次元人間のポーズと軌道予測の両方において最先端の性能を達成する。
論文参考訳（メタデータ） (2024-05-05T12:38:10Z)
ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文参考訳（メタデータ） (2023-11-29T20:30:18Z)
Implicit Occupancy Flow Fields for Perception and Prediction in Self-Driving [68.95178518732965]
自動運転車(SDV)は、周囲を認識でき、他の交通参加者の将来の行動を予測できなければならない。既存の作業は、検出されたオブジェクトの軌跡が続くオブジェクト検出を実行するか、シーン全体の密度の高い占有とフローグリッドを予測するかのいずれかである。これは、認識と将来の予測に対する統一されたアプローチを動機付け、単一のニューラルネットワークで時間とともに占有とフローを暗黙的に表現します。
論文参考訳（メタデータ） (2023-08-02T23:39:24Z)
AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文参考訳（メタデータ） (2022-08-24T16:54:38Z)
3D Semantic Scene Perception using Distributed Smart Edge Sensors [29.998917158604694]
本稿では,分散スマートエッジセンサのネットワークからなる3次元セマンティックシーン認識システムを提案する。センサーノードは、組み込みCNN推論アクセラレータとRGB-Dおよびサーマルカメラに基づいている。提案システムでは,複数の人物の3次元ポーズをリアルタイムで推定し,意味的アノテーションを付加したシーンビューを提供する。
論文参考訳（メタデータ） (2022-05-03T12:46:26Z)
TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文参考訳（メタデータ） (2021-04-08T20:01:00Z)
Recognition and 3D Localization of Pedestrian Actions from Monocular Video [11.29865843123467]
本稿では,エゴセントリックな視点から,単眼歩行行動認識と3D位置認識に焦点を当てた。都市交通シーンにおけるこの問題に対処する上での課題は、歩行者の予測不可能な行動に起因する。
論文参考訳（メタデータ） (2020-08-03T19:57:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。