論文の概要: IFG: Internet-Scale Guidance for Functional Grasping Generation
- arxiv url: http://arxiv.org/abs/2511.09558v1
- Date: Thu, 13 Nov 2025 02:02:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.625105
- Title: IFG: Internet-Scale Guidance for Functional Grasping Generation
- Title(参考訳): IFG:Internet-Scale Guidance for Functional Grasping Generation
- Authors: Ray Muxin Liu, Mingxuan Li, Kenneth Shaw, Deepak Pathak,
- Abstract要約: インターネット規模のデータに基づいてトレーニングされた大規模ビジョンモデルは、セグメンテーションと意味論的理解において強力な能力を示している。
シーン中の手と物体の局所的なジオメトリを解析する力閉鎖グルーピング生成パイプラインを用いたシミュレーションを利用する。
シミュレーションに基づく局所的力閉鎖の幾何学的精度とインターネットスケールモデルの大域的意味理解を組み合わせることで,手作業によるトレーニングデータ収集を伴わずに,高性能な意味把握を実現する。
- 参考スコア(独自算出の注目度): 33.591942326974824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision Models trained on internet-scale data have demonstrated strong capabilities in segmenting and semantically understanding object parts, even in cluttered, crowded scenes. However, while these models can direct a robot toward the general region of an object, they lack the geometric understanding required to precisely control dexterous robotic hands for 3D grasping. To overcome this, our key insight is to leverage simulation with a force-closure grasping generation pipeline that understands local geometries of the hand and object in the scene. Because this pipeline is slow and requires ground-truth observations, the resulting data is distilled into a diffusion model that operates in real-time on camera point clouds. By combining the global semantic understanding of internet-scale models with the geometric precision of a simulation-based locally-aware force-closure, \our achieves high-performance semantic grasping without any manually collected training data. For visualizations of this please visit our website at https://ifgrasping.github.io/
- Abstract(参考訳): インターネット規模のデータに基づいてトレーニングされた大規模なビジョンモデルは、散らかった混み合ったシーンでさえも、セグメンテーションや意味的理解において強力な能力を発揮している。
しかし、これらのモデルは、物体の一般的な領域に向けてロボットを誘導することができるが、3Dグルーピングのためには、器用なロボットハンドを正確に制御するために必要な幾何学的理解が欠如している。
これを解決するために,我々は,手と物体の局所的な地形を可視化する力閉鎖把握生成パイプラインを用いて,シミュレーションを活用することが重要である。
このパイプラインは遅く、地表面の観測を必要とするため、結果は拡散モデルに蒸留され、カメラポイントの雲上でリアルタイムに動作する。
シミュレーションに基づく局所的な力閉鎖の幾何学的精度とインターネットスケールモデルのグローバルな意味理解を組み合わせることで,手作業で収集したトレーニングデータなしで高性能な意味把握を実現する。
詳しくは、https://ifgrasping.github.io/.com/をご覧ください。
関連論文リスト
- R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation [74.41728218960465]
本稿では,実世界のデータを生成するために,ポイントクラウド観測-アクションペアを直接拡張するリアルタイム3Dデータ生成フレームワーク(R2RGen)を提案する。
R2RGenは、広範な実験におけるデータの効率を大幅に向上させ、モバイル操作におけるスケーリングと応用の強い可能性を示す。
論文 参考訳(メタデータ) (2025-10-09T17:55:44Z) - Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots [55.43376513158555]
カメラ深度モデル (CDMs) は日用深度カメラの単純なプラグインである。
我々は,ディープカメラのノイズパターンをモデル化することにより,シミュレーションから高品質なペアデータを生成するニューラルデータエンジンを開発した。
私たちの実験では、ノイズや現実世界の微調整を必要とせず、生のシミュレートされた深さで訓練されたポリシーが、現実のロボットにシームレスに一般化されることを初めて実証しました。
論文 参考訳(メタデータ) (2025-09-02T17:29:38Z) - Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation [0.6533458718563319]
本稿では,腕を備えた四足歩行の把握能力を高めるための枠組みを提案する。
そこで我々は,ジェネシスシミュレーション環境内にパイプラインを構築し,共通物体の把握試行の合成データセットを生成する。
このデータセットは、オンボードのRGBとディープカメラからのマルチモーダル入力を処理するU-Netのようなアーキテクチャで、カスタムCNNのトレーニングに使用された。
四脚ロボットの完全な枠組みを検証した。
論文 参考訳(メタデータ) (2025-08-24T17:47:56Z) - Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [57.942404069484134]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。
従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。
本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - NSLF-OL: Online Learning of Neural Surface Light Fields alongside
Real-time Incremental 3D Reconstruction [0.76146285961466]
そこで本研究では,視線方向の小さな方向に対応できるニューラルサーフェス光場モデルを提案する。
我々のモデルは、リアルタイムな3次元再構成の他に、シーケンシャルなデータストリームを共有入力として、ニューラルネットワーク光場(NSLF)をオンラインで学習する。
オンライントレーニングに加えて、可視化のためにデータストリームを完了した後のリアルタイムレンダリングも提供する。
論文 参考訳(メタデータ) (2023-04-29T15:41:15Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z) - Self-Supervised Object-in-Gripper Segmentation from Robotic Motions [27.915309216800125]
ロボットが把握した未知の物体をセグメント化するための頑健な解法を提案する。
我々はRGBビデオシーケンスにおける動きと時間的手がかりを利用する。
当社のアプローチは、カメラキャリブレーションや3Dモデル、あるいは潜在的に不完全な深度データとは独立して、完全に自己管理されている。
論文 参考訳(メタデータ) (2020-02-11T15:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。