論文の概要: FalconApp: Rapid iPhone Deployment of End-to-End Perception via Automatically Labeled Synthetic Data
- arxiv url: http://arxiv.org/abs/2604.25949v1
- Date: Tue, 21 Apr 2026 20:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.09406
- Title: FalconApp: Rapid iPhone Deployment of End-to-End Perception via Automatically Labeled Synthetic Data
- Title(参考訳): FalconApp: 自動ラベル付け合成データによるエンド・ツー・エンドの知覚の迅速な展開
- Authors: Yan Miao, Will Shen, Sayan Mitra,
- Abstract要約: FalconAppはiPhoneアプリで、剛体物体の短いハンドヘルドキャプチャーを知覚モジュールに変える。
私たちの中核的なコントリビューションは、高速なモバイルデプロイメントパイプラインと、オブジェクトのユーザがキャプチャしたビデオからの自動ラベリングワークフローを組み合わせることです。
実験によると、FalconAppは、およそ数分の合成知覚生成とトレーニングで使用可能な知覚モデルを生成する。
- 参考スコア(独自算出の注目度): 3.5472256387164163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable perception for robotics depends on large-scale labeled data, yet real-world datasets rely on heavy manual annotation and are time-consuming to produce. We present FalconApp, an iPhone app with an end-to-end frontend-backend pipeline that turns a short handheld capture of a rigid object into a perception module for mask detection and 6-DoF pose estimation. Our core contribution is a rapid mobile deployment pipeline paired with a photorealistic auto-labeling workflow: from a user-captured video of an object, FalconApp reconstructs an editable GSplat asset, composites it with diverse photorealistic backgrounds, renders synthetic images with ground-truth masks and poses, trains the perception module, and deploys it back to the iPhone frontend. Experiments across five rigid objects with diverse geometry and appearance show that FalconApp produces usable perception models with about 20 minutes of synthetic-data generation and training per object on average, around 30 ms end-to-end on-device latency on iPhone, and better overall pose accuracy than a PnP baseline on 4 / 5 objects in both simulation and real-world evaluation.
- Abstract(参考訳): ロボット工学に対する信頼性の高い認識は、大規模なラベル付きデータに依存するが、現実のデータセットは重い手動アノテーションに依存しており、生成に時間がかかる。
マスク検出と6-DoFポーズ推定のための知覚モジュールに、剛体物体の短いハンドヘルドキャプチャーを変換するエンド・ツー・エンドのフロントエンド・バックエンド・パイプラインを備えたiPhoneアプリであるFalconAppを提示する。
私たちのコアコントリビューションは、フォトリアリスティックな自動ラベリングワークフローと組み合わせた、迅速なモバイルデプロイメントパイプラインです。オブジェクトのユーザキャプチャービデオから、FalconAppは、編集可能なGSplatアセットを再構築し、さまざまなフォトリアリスティックなバックグラウンドでそれを合成し、地味なマスクとポーズで合成イメージをレンダリングし、知覚モジュールをトレーニングし、iPhoneフロントエンドにデプロイします。
さまざまな幾何学と外観を持つ5つの剛体物体に対する実験により、FalconAppは平均20分間の合成データ生成とオブジェクト毎のトレーニングで使用可能な知覚モデルを生成し、iPhone上では30msのエンドツーエンドのレイテンシで、シミュレーションと実世界の両方の評価において、4/5オブジェクト上のPnPベースラインよりも全体的な精度が向上した。
関連論文リスト
- EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents [85.77432303199176]
EmbodMocapは2つの動くiPhoneを使ったポータブルで安価なデータ収集パイプラインである。
私たちのキーとなるアイデアは、二重RGB-Dシーケンスを共同で校正し、人間とシーンの両方を再構築することです。
収集したデータに基づいて、我々は3つの具体的AIタスクを強化した: モノクラーヒューマン・シーン・リコンストラクション(モノクラーヒューマン・シーン・リコンストラクション)、メトリックスケールで世界空間に整合した人間とシーンを出力するフィードフォワードモデル、物理ベースのキャラクターアニメーション。
論文 参考訳(メタデータ) (2026-02-26T16:53:41Z) - SAGE: Scalable Agentic 3D Scene Generation for Embodied AI [67.43935343696982]
既存のシーン生成システムは、しばしばルールベースまたはタスク固有のパイプラインに依存し、アーティファクトと物理的に無効なシーンを生成する。
本稿では,ユーザが特定した具体的タスクを与えられたエージェントフレームワークであるSAGEについて,その意図を理解し,大規模にシミュレーション可能な環境を自動的に生成する。
得られた環境は現実的で多様性があり、政策訓練のための現代的なシミュレーターに直接デプロイできる。
論文 参考訳(メタデータ) (2026-02-10T18:59:55Z) - PoseDiff: A Unified Diffusion Model Bridging Robot Pose Estimation and Video-to-Action Control [67.17998939712326]
本稿では,ロボットの状態推定と制御を単一のフレームワーク内で統一する条件拡散モデルPoseDiffを提案する。
中心となるPoseDiffは、生の視覚を3Dキーポイントや関節角などの構造化されたロボットの状態にマッピングする。
この基盤の上に構築されたPoseDiffは、ビデオからアクションへの逆ダイナミクスに自然に拡張する。
論文 参考訳(メタデータ) (2025-09-29T10:55:48Z) - Synthetica: Large Scale Synthetic Data for Robot Perception [21.415878105900187]
本稿では,ロバストな状態推定器を訓練するための大規模合成データ生成手法であるSyntheticaを提案する。
本稿では,ほとんどの状態推定問題のフロントエンドとして機能する重要な問題であるオブジェクト検出の課題に焦点を当てる。
レイトレーシングのデータを利用して270万の画像を生成し、高精度なリアルタイム検出変換器を訓練する。
我々は,従来のSOTAの9倍の50-100Hzの検出器を動作させながら,物体検出タスクにおける最先端性能を示す。
論文 参考訳(メタデータ) (2024-10-28T15:50:56Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - Leveraging Deepfakes to Close the Domain Gap between Real and Synthetic
Images in Facial Capture Pipelines [8.366597450893456]
我々は、パーソナライズされたアプリ内ビデオデータから3次元顔モデルを構築し、追跡するためのエンドツーエンドパイプラインを提案する。
本稿では,従来のコンピュータグラフィックスパイプラインにおける衝突アルゴリズムに典型的な階層的クラスタリングフレームワークに基づく自動データキュレーションと検索手法を提案する。
我々は、前述の技術を活用して、現実の地上真実データの必要性を回避するために、モーションキャプチャ回帰器のトレーニング方法を概説する。
論文 参考訳(メタデータ) (2022-04-22T15:09:49Z) - A Sim2Real Deep Learning Approach for the Transformation of Images from
Multiple Vehicle-Mounted Cameras to a Semantically Segmented Image in Bird's
Eye View [0.0]
カメラの視点を鳥の視線(BEV)に変換すると、距離をより容易に推定できる。
本稿では,複数の車載カメラから補正された360度BEV画像を得る方法について述べる。
ニューラルネットワークのアプローチは、手動でラベル付けされたデータに頼るのではなく、実世界のデータに対してうまく一般化するように、合成データセットでトレーニングされる。
論文 参考訳(メタデータ) (2020-05-08T14:54:13Z) - Virtual to Real adaptation of Pedestrian Detectors [9.432150710329607]
ViPeDは、ビデオゲームGTA V - Grand Theft Auto Vのグラフィカルエンジンで収集された新しい合成画像セットである。
本稿では,歩行者検出作業に適した2つの異なる領域適応手法を提案する。
実験によると、ViPeDでトレーニングされたネットワークは、実世界のデータでトレーニングされた検出器よりも、目に見えない現実世界のシナリオを一般化できる。
論文 参考訳(メタデータ) (2020-01-09T14:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。