Fugu-MT 論文翻訳(概要): Spatially Visual Perception for End-to-End Robotic Learning

論文の概要: Spatially Visual Perception for End-to-End Robotic Learning

arxiv url: http://arxiv.org/abs/2411.17458v1
Date: Tue, 26 Nov 2024 14:23:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:51.131319
Title: Spatially Visual Perception for End-to-End Robotic Learning
Title（参考訳）: エンド・ツー・エンドロボット学習のための空間的視覚認識
Authors: Travis Davies, Jiahuan Yan, Xiang Chen, Yu Tian, Yueting Zhuang, Yiqi Huang, Luhui Hu,
Abstract要約: 環境変動に対処するために3次元空間表現を利用する映像ベース空間認識フレームワークを提案する。提案手法は,新しい画像拡張手法であるAugBlenderと,インターネット規模のデータに基づいてトレーニングされた最先端のモノクロ深度推定モデルを統合する。
参考スコア（独自算出の注目度）: 33.490603706207075
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in imitation learning have shown significant promise for robotic control and embodied intelligence. However, achieving robust generalization across diverse mounted camera observations remains a critical challenge. In this paper, we introduce a video-based spatial perception framework that leverages 3D spatial representations to address environmental variability, with a focus on handling lighting changes. Our approach integrates a novel image augmentation technique, AugBlender, with a state-of-the-art monocular depth estimation model trained on internet-scale data. Together, these components form a cohesive system designed to enhance robustness and adaptability in dynamic scenarios. Our results demonstrate that our approach significantly boosts the success rate across diverse camera exposures, where previous models experience performance collapse. Our findings highlight the potential of video-based spatial perception models in advancing robustness for end-to-end robotic learning, paving the way for scalable, low-cost solutions in embodied intelligence.
Abstract（参考訳）: 模倣学習の最近の進歩は、ロボット制御と具現化インテリジェンスに大きな可能性を示している。しかし、多種多様なカメラ観測における堅牢な一般化の実現は、依然として重要な課題である。本稿では,環境変動に対処するために3次元空間表現を利用した映像に基づく空間認識フレームワークを提案する。提案手法は,新しい画像拡張手法であるAugBlenderと,インターネット規模のデータに基づいてトレーニングされた最先端のモノクロ深度推定モデルを統合する。これらのコンポーネントは、動的シナリオにおける堅牢性と適応性を高めるために設計された凝集系を形成する。以上の結果から,従来モデルでは性能が低下していた多種多様なカメラ露光において,我々のアプローチは成功率を大幅に向上させることが示された。我々の研究は、エンドツーエンドのロボット学習における堅牢性向上におけるビデオベースの空間知覚モデルの可能性を強調し、エンボディドインテリジェンスにおけるスケーラブルで低コストなソリューションの道を開いた。

関連論文リスト

FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video [52.33896173943054]
ヘッドマウントのボディフェイスステレオカメラを備えたエゴセントリックなモーションキャプチャーは、VRやARアプリケーションには不可欠だ。既存の方法は、合成事前学習と、現実の環境で滑らかで正確な予測を生成するのに苦労している。本稿では、デバイスポーズとカメラフィードを組み合わせて、最先端のボディポーズ予測を行う、シンプルで効果的なアーキテクチャFRAMEを提案する。
論文参考訳（メタデータ） (2025-03-29T14:26:06Z)
Drive-1-to-3: Enriching Diffusion Priors for Novel View Synthesis of Real Vehicles [81.29018359825872]
本稿では,実世界の課題に対して,大規模な事前学習モデルを微調整するための一連の優れたプラクティスを統合する。具体的には,合成データと実運転データとの相違を考慮に入れたいくつかの戦略を開発する。我々の洞察は、先行芸術よりも新しいビュー合成のためのFIDを68.8%値下げする効果のある微調整につながる。
論文参考訳（メタデータ） (2024-12-19T03:39:13Z)
Learning Generalizable 3D Manipulation With 10 Demonstrations [16.502781729164973]
10個のデモから操作スキルを学習する新しいフレームワークを提案する。シミュレーションベンチマークと実世界のロボットシステムの両方に関する広範な実験を通じて、我々のフレームワークを検証する。この研究は、現実世界のアプリケーションにおいて、効率的で一般化可能な操作スキル学習を前進させる大きな可能性を示している。
論文参考訳（メタデータ） (2024-11-15T14:01:02Z)
E-Motion: Future Motion Simulation via Event Sequence Diffusion [86.80533612211502]
イベントベースのセンサーは、これまで達成できなかった詳細と精度で将来の動きを予測するユニークな機会を提供する可能性がある。本稿では,映像拡散モデルの強力な学習能力とイベントカメラのリッチな動作情報とを,モーションシミュレーションフレームワークとして統合することを提案する。本研究は,コンピュータビジョンシステムの解釈能力と予測精度の向上に向けた今後の研究の方向性を示唆するものである。
論文参考訳（メタデータ） (2024-10-11T09:19:23Z)
3D Hand Mesh Recovery from Monocular RGB in Camera Space [3.0453197258042213]
本研究では,ルート相対格子とルート回復タスクの並列処理を行うネットワークモデルを提案する。暗黙的な学習手法を2次元ヒートマップに適用し、異なるサブタスク間の2次元キューの互換性を向上させる。提案モデルは最先端のモデルに匹敵する。
論文参考訳（メタデータ） (2024-05-12T05:36:37Z)
Unifying Correspondence, Pose and NeRF for Pose-Free Novel View Synthesis from Stereo Pairs [57.492124844326206]
この研究は、3次元視覚における挑戦的で先駆的な課題であるステレオペアからのポーズレスノベルビュー合成の課題に踏み込んだ。我々の革新的なフレームワークは、これまでとは違って、シームレスに2D対応マッチング、カメラポーズ推定、NeRFレンダリングを統合し、これらのタスクの相乗的強化を促進します。
論文参考訳（メタデータ） (2023-12-12T13:22:44Z)
TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。 TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。 TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文参考訳（メタデータ） (2023-12-01T15:24:38Z)
Multi-Modal Dataset Acquisition for Photometrically Challenging Object [56.30027922063559]
本稿では,3次元視覚タスクにおける現在のデータセットの限界について,精度,サイズ,リアリズム,および光度に挑戦する対象に対する適切な画像モダリティの観点から検討する。既存の3次元認識と6次元オブジェクトポーズデータセットを強化する新しいアノテーションと取得パイプラインを提案する。
論文参考訳（メタデータ） (2023-08-21T10:38:32Z)
AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。 3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文参考訳（メタデータ） (2023-07-07T17:59:14Z)
Robust Robotic Control from Pixels using Contrastive Recurrent State-Space Models [8.22669535053079]
本研究では、画像などの高次元観測空間上で、制約のない環境で世界モデルを学習する方法を研究する。困難の原因の1つは、無関係ではあるが、モデルによる背景の混乱の存在である。我々は、次の観測を対照的に予測する反復潜時力学モデルを学ぶ。このシンプルなモデルは、同時にカメラ、背景、色を逸脱しても驚くほど頑丈なロボット制御に繋がる。
論文参考訳（メタデータ） (2021-12-02T12:15:25Z)
Unadversarial Examples: Designing Objects for Robust Vision [100.4627585672469]
現代の機械学習アルゴリズムの感度を入力摂動に活かし、「ロバストオブジェクト」を設計するフレームワークを開発しています。標準ベンチマークから(シミュレーション中)ロボット工学まで,さまざまな視覚ベースのタスクに対するフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2020-12-22T18:26:07Z)
3D Scene Geometry-Aware Constraint for Camera Localization with Deep Learning [11.599633757222406]
近年、畳み込みニューラルネットワークに基づくエンドツーエンドのアプローチは、従来の3次元幾何学に基づく手法を達成または超えるように研究されている。本研究では,絶対カメラポーズ回帰のためのコンパクトネットワークを提案する。これらの従来の手法から着想を得た3Dシーンの幾何学的制約も、動き、深さ、画像の内容を含むすべての利用可能な情報を活用することによって導入される。
論文参考訳（メタデータ） (2020-05-13T04:15:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。