論文の概要: Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents
- arxiv url: http://arxiv.org/abs/2209.13156v1
- Date: Tue, 27 Sep 2022 04:49:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 14:40:00.849101
- Title: Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents
- Title(参考訳): 屋内移動エージェントのためのマルチモーダルマルチタスクシーン理解モデル
- Authors: Yao-Hung Hubert Tsai, Hanlin Goh, Ali Farhadi, Jian Zhang
- Abstract要約: 本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
- 参考スコア(独自算出の注目度): 49.904531485843464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The perception system in personalized mobile agents requires developing
indoor scene understanding models, which can understand 3D geometries, capture
objectiveness, analyze human behaviors, etc. Nonetheless, this direction has
not been well-explored in comparison with models for outdoor environments
(e.g., the autonomous driving system that includes pedestrian prediction, car
detection, traffic sign recognition, etc.). In this paper, we first discuss the
main challenge: insufficient, or even no, labeled data for real-world indoor
environments, and other challenges such as fusion between heterogeneous sources
of information (e.g., RGB images and Lidar point clouds), modeling
relationships between a diverse set of outputs (e.g., 3D object locations,
depth estimation, and human poses), and computational efficiency. Then, we
describe MMISM (Multi-modality input Multi-task output Indoor Scene
understanding Model) to tackle the above challenges. MMISM considers RGB images
as well as sparse Lidar points as inputs and 3D object detection, depth
completion, human pose estimation, and semantic segmentation as output tasks.
We show that MMISM performs on par or even better than single-task models;
e.g., we improve the baseline 3D object detection results by 11.7% on the
benchmark ARKitScenes dataset.
- Abstract(参考訳): パーソナライズされた移動体エージェントの認識システムは,3次元空間の理解,目的性の獲得,人間の行動分析などが可能な屋内シーン理解モデルを開発する必要がある。
にもかかわらず、この方向は屋外環境(歩行者予測、車検出、交通標識認識などを含む自律運転システムなど)のモデルと比較して、十分に探索されていない。
本稿ではまず,実世界の屋内環境におけるラベル付きデータの不足や,異種情報ソース(rgb画像やlidarポイントクラウドなど)の融合,さまざまな出力セット(3dオブジェクト位置,深度推定,人間のポーズなど)の関係のモデル化,計算効率といった課題について論じる。
次に,MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
例えば、ベンチマークARKitScenesデータセットでは、ベースラインの3Dオブジェクト検出結果を11.7%改善しています。
関連論文リスト
- LLMI3D: Empowering LLM with 3D Perception from a Single 2D Image [72.14973729674995]
現在の3D認識手法、特に小さなモデルでは、論理的推論、質問応答、オープンシナリオカテゴリの処理に苦労している。
空間的特徴抽出のための空間的局所特徴抽出法,精密な幾何回帰のための3次元問合せ情報復号法,カメラ焦点長変動に対する幾何学投影に基づく3次元推論を提案する。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Towards Precise 3D Human Pose Estimation with Multi-Perspective Spatial-Temporal Relational Transformers [28.38686299271394]
人間のポーズ検出のための3次元シーケンス・ツー・シーケンス(seq2seq)フレームワークを提案する。
まず、空間モジュールは人物のポーズ特徴を画像内コンテンツで表現し、フレーム・イメージ関係モジュールは時間的関係を抽出する。
提案手法は,一般的な3次元ポーズ検出データセットであるHuman3.6Mを用いて評価する。
論文 参考訳(メタデータ) (2024-01-30T03:00:25Z) - MMRDN: Consistent Representation for Multi-View Manipulation
Relationship Detection in Object-Stacked Scenes [62.20046129613934]
我々は,MMRDN(Multi-view MRD Network)と呼ばれる新しい多視点融合フレームワークを提案する。
異なるビューからの2Dデータを共通の隠れ空間に投影し、埋め込みをVon-Mises-Fisher分布に適合させる。
これら2つのオブジェクトの相対位置を符号化した各オブジェクト対の点雲から、K$最大垂直近傍点(KMVN)の集合を選択する。
論文 参考訳(メタデータ) (2023-04-25T05:55:29Z) - CROMOSim: A Deep Learning-based Cross-modality Inertial Measurement
Simulator [7.50015216403068]
慣性測定装置 (IMU) のデータは, 人体移動の監視と評価に利用されてきた。
データ不足を緩和するため,クロスモーダルセンサシミュレータであるCROMOSimを設計した。
モーションキャプチャシステムや単眼RGBカメラから高忠実度仮想IMUセンサーデータをシミュレートする。
論文 参考訳(メタデータ) (2022-02-21T22:30:43Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Exploring the Capabilities and Limits of 3D Monocular Object Detection
-- A Study on Simulation and Real World Data [0.0]
単眼カメラデータに基づく3次元物体検出が自動運転の鍵となる。
近年のディープラーニング手法は, 単一の画像から深度情報を復元する有望な結果を示す。
本稿では,深度推定の異なるパラメータ化が可能な3次元物体検出パイプラインの性能評価を行う。
論文 参考訳(メタデータ) (2020-05-15T09:05:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。