Fugu-MT 論文翻訳(概要): Stillleben: Realistic Scene Synthesis for Deep Learning in Robotics

論文の概要: Stillleben: Realistic Scene Synthesis for Deep Learning in Robotics

arxiv url: http://arxiv.org/abs/2005.05659v1
Date: Tue, 12 May 2020 10:11:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-03 19:17:42.299805
Title: Stillleben: Realistic Scene Synthesis for Deep Learning in Robotics
Title（参考訳）: Stillleben:ロボットのディープラーニングのためのリアルなシーン合成
Authors: Max Schwarz and Sven Behnke
Abstract要約: 本稿では,シーン認識タスクの学習データを生成するための合成パイプラインについて述べる。本手法は,物理シミュレーションを用いて,物体メッシュを物理的に現実的で密集したシーンに配置する。私たちのパイプラインは、ディープニューラルネットワークのトレーニング中にオンラインで実行できます。
参考スコア（独自算出の注目度）: 33.30312206728974
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training data is the key ingredient for deep learning approaches, but difficult to obtain for the specialized domains often encountered in robotics. We describe a synthesis pipeline capable of producing training data for cluttered scene perception tasks such as semantic segmentation, object detection, and correspondence or pose estimation. Our approach arranges object meshes in physically realistic, dense scenes using physics simulation. The arranged scenes are rendered using high-quality rasterization with randomized appearance and material parameters. Noise and other transformations introduced by the camera sensors are simulated. Our pipeline can be run online during training of a deep neural network, yielding applications in life-long learning and in iterative render-and-compare approaches. We demonstrate the usability by learning semantic segmentation on the challenging YCB-Video dataset without actually using any training frames, where our method achieves performance comparable to a conventionally trained model. Additionally, we show successful application in a real-world regrasping system.
Abstract（参考訳）: トレーニングデータは、ディープラーニングアプローチの鍵となる要素であるが、ロボット工学でしばしば遭遇する専門分野の獲得は困難である。本稿では,セマンティックセグメンテーションやオブジェクト検出,対応性やポーズ推定といった,乱れたシーン認識タスクのトレーニングデータを生成することができる合成パイプラインについて述べる。物理シミュレーションを用いて,物体メッシュを物理的にリアルで密集したシーンに配置する。配置されたシーンは、ランダムな外観と材料パラメータを持つ高品質なラスタライズを用いてレンダリングされる。カメラセンサに導入されたノイズやその他の変換をシミュレートする。私たちのパイプラインはディープニューラルネットワークのトレーニング中にオンラインで実行することができ、生涯学習や反復的なレンダリング・アンド・コンパレートアプローチに応用できます。本手法は,従来のモデルに匹敵する性能を実現するため,実際にトレーニングフレームを使わずに,挑戦的なycbビデオデータセット上で意味セグメンテーションを学習することで,ユーザビリティを実証する。さらに,実世界のリグラッピングシステムでの成功例を示す。

関連論文リスト

Mirage2Matter: A Physically Grounded Gaussian World Model from Video [87.9732484393686]
我々は、グラフィック駆動の世界モデリングおよびシミュレーションフレームワークであるSimulate Anythingを紹介する。実世界の環境を3次元ガウススプレイティング(3DGS)による写実的シーン表現に再構築する。次に、生成モデルを利用して、物理的に現実的な表現を復元し、精度校正ターゲットを介してシミュレーション環境に統合する。
論文参考訳（メタデータ） (2026-01-24T07:43:57Z)
Watch and Learn: Learning to Use Computers from Online Videos [50.10702690339142]
Watch & Learn(W&L)は、インターネット上で簡単に利用できる人間のデモビデオを、大規模に実行可能なUIトラジェクトリに変換するフレームワークである。我々は,タスク対応ビデオ検索を用いた逆動的ラベリングパイプラインを開発し,生のウェブビデオから53k以上の高品質なトラジェクトリを生成する。これらの結果から,実世界展開に向けたCUAの実践的かつスケーラブルな基盤として,Webスケールの人間デモビデオが注目されている。
論文参考訳（メタデータ） (2025-10-06T10:29:00Z)
Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation [0.6533458718563319]
本稿では,腕を備えた四足歩行の把握能力を高めるための枠組みを提案する。そこで我々は,ジェネシスシミュレーション環境内にパイプラインを構築し,共通物体の把握試行の合成データセットを生成する。このデータセットは、オンボードのRGBとディープカメラからのマルチモーダル入力を処理するU-Netのようなアーキテクチャで、カスタムCNNのトレーニングに使用された。四脚ロボットの完全な枠組みを検証した。
論文参考訳（メタデータ） (2025-08-24T17:47:56Z)
URDFormer: A Pipeline for Constructing Articulated Simulation Environments from Real-World Images [39.0780707100513]
そこで本研究では,実世界の画像からキネマティック構造と動的構造を合成したシミュレーションシーンを生成するエンドツーエンドパイプラインを提案する。そこで本研究は,大規模シミュレーション環境のためのパイプラインと,ロバストなロボット制御ポリシをトレーニングするための統合システムの両方を提供する。
論文参考訳（メタデータ） (2024-05-19T20:01:29Z)
Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。 ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文参考訳（メタデータ） (2023-12-28T23:34:43Z)
DNS SLAM: Dense Neural Semantic-Informed SLAM [92.39687553022605]
DNS SLAMは、ハイブリッド表現を備えた新しいRGB-DセマンティックSLAMアプローチである。本手法は画像に基づく特徴抽出と多視点幾何制約を統合し,外観の細部を改良する。実験により, 合成データと実世界のデータ追跡の両面において, 最先端の性能が得られた。
論文参考訳（メタデータ） (2023-11-30T21:34:44Z)
Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in Clutter [14.489086924126253]
本研究は, 乱雑な場面において, 自然言語で参照される物体のつかみポーズを予測する, つかみ合成を参照する作業に焦点をあてる。既存のアプローチでは、参照対象をまずセグメント化し、適切な把握を提案し、自然屋内シーンの複雑さを捉えないプライベートデータセットやシミュレータで評価される。本稿では,CLIPの視覚的接地機能を利用して,画像とテキストのペアから直接合成を学習する新しいエンド・ツー・エンド・モデル(CROG)を提案する。
論文参考訳（メタデータ） (2023-11-09T22:55:10Z)
Leveraging Deepfakes to Close the Domain Gap between Real and Synthetic Images in Facial Capture Pipelines [8.366597450893456]
我々は、パーソナライズされたアプリ内ビデオデータから3次元顔モデルを構築し、追跡するためのエンドツーエンドパイプラインを提案する。本稿では,従来のコンピュータグラフィックスパイプラインにおける衝突アルゴリズムに典型的な階層的クラスタリングフレームワークに基づく自動データキュレーションと検索手法を提案する。我々は、前述の技術を活用して、現実の地上真実データの必要性を回避するために、モーションキャプチャ回帰器のトレーニング方法を概説する。
論文参考訳（メタデータ） (2022-04-22T15:09:49Z)
Towards Scale Consistent Monocular Visual Odometry by Learning from the Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文参考訳（メタデータ） (2022-03-11T01:51:54Z)
Evaluating Continual Learning Algorithms by Generating 3D Virtual Environments [66.83839051693695]
連続学習とは、人間や動物が特定の環境で徐々に学習する能力である。本稿では3次元仮想環境の最近の進歩を活用して,フォトリアリスティックな外観を持つ潜在的に長寿命な動的シーンの自動生成にアプローチすることを提案する。本論文の新たな要素は、シーンがパラメトリックな方法で記述され、エージェントが知覚する入力ストリームの視覚的複雑さを完全に制御できることである。
論文参考訳（メタデータ） (2021-09-16T10:37:21Z)
Scene Synthesis via Uncertainty-Driven Attribute Synchronization [52.31834816911887]
本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。
論文参考訳（メタデータ） (2021-08-30T19:45:07Z)
PennSyn2Real: Training Object Recognition Models without Human Labeling [12.923677573437699]
我々はPennSyn2Realを提案する。20種類以上のマイクロエアロビー(MAV)の10万以上の4K画像からなる合成データセットである。このデータセットは、MAV検出や分類などのハイレベルコンピュータビジョンタスクのための任意の数のトレーニングイメージを生成するために使用することができる。このフレームワークを用いて生成された合成データは,検出やセグメンテーションといった一般的なオブジェクト認識タスクに対して,CNNモデルをトレーニングするために直接利用できることを示す。
論文参考訳（メタデータ） (2020-09-22T02:53:40Z)
Meta-Sim2: Unsupervised Learning of Scene Structure for Synthetic Data Generation [88.04759848307687]
Meta-Sim2では,パラメータに加えてシーン構造を学習することを目指している。強化学習(Reinforcement Learning)を使用してモデルをトレーニングし、トレーニング成功の鍵となる合成画像とターゲット画像の間に特徴空間のばらつきを設計する。また,この手法は,他のベースラインシミュレーション手法と対照的に,生成したデータセット上でトレーニングしたオブジェクト検出器の性能を下流で向上させることを示す。
論文参考訳（メタデータ） (2020-08-20T17:28:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。