論文の概要: Which Reconstruction Model Should a Robot Use? Routing Image-to-3D Models for Cost-Aware Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2603.27797v1
- Date: Sun, 29 Mar 2026 18:23:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.120875
- Title: Which Reconstruction Model Should a Robot Use? Routing Image-to-3D Models for Cost-Aware Robotic Manipulation
- Title(参考訳): ロボットはどの再構成モデルを使うべきか : コストを考慮したロボットマニピュレーションのための画像から3Dモデルをルーティングする
- Authors: Akash Anand, Aditya Agarwal, Leslie Pack Kaelbling,
- Abstract要約: 複数の再構築手法は、異なるコスト品質のトレードオフを提供する。
本稿では、再構成スコアを2つのコンポーネントに分割する新しいルーティングフレームワークSCOUTを提案する。
SCOUTは推論時に任意のコスト制約をサポートし、ロボット工学で一般的な多次元コスト制約を調節する。
- 参考スコア(独自算出の注目度): 14.047294299357352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic manipulation tasks require 3D mesh reconstructions of varying quality: dexterous manipulation demands fine-grained surface detail, while collision-free planning tolerates coarser representations. Multiple reconstruction methods offer different cost-quality tradeoffs, from Image-to-3D models - whose output quality depends heavily on the input viewpoint - to view-invariant methods such as structured light scanning. Querying all models is computationally prohibitive, motivating per-input model selection. We propose SCOUT, a novel routing framework that decouples reconstruction scores into two components: (1) the relative performance of viewpoint-dependent models, captured by a learned probability distribution, and (2) the overall image difficulty, captured by a scalar partition function estimate. As the learned network operates only over the viewpoint-dependent models, view-invariant pipelines can be added, removed, or reconfigured without retraining. SCOUT also supports arbitrary cost constraints at inference time, accommodating the multi-dimensional cost constraints common in robotics. We evaluate on the Google Scanned Objects, BigBIRD, and YCB datasets under multiple mesh quality metrics, demonstrating consistent improvements over routing baselines adapted from the LLM literature across various cost constraints. We further validate the framework through robotic grasping and dexterous manipulation experiments. We release the code and additional results on our website.
- Abstract(参考訳): ロボット操作タスクは、様々な品質の3Dメッシュ再構築を必要とする: きめ細かい操作は、きめ細かな表面の詳細を要求するが、衝突のない計画では、粗い表現が許容される。
複数の再構成手法は、出力品質が入力視点に大きく依存するイメージ・ツー・3Dモデルから、構造化光走査のようなビュー不変の方法まで、様々なコスト品質のトレードオフを提供する。
すべてのモデルのクエリは計算的に禁止され、インプット毎のモデル選択を動機付けます。
SCOUTは,学習確率分布で得られた視点依存モデルの相対的な性能と,スカラー分割関数の推定値で得られた全体像の難しさの2つの要素に分解する新しいルーティングフレームワークである。
学習したネットワークは視点に依存したモデル上でのみ動作するため、ビュー不変のパイプラインを追加、削除、あるいは再トレーニングせずに再構成することができる。
SCOUTはまた、推論時に任意のコスト制約をサポートし、ロボット工学で一般的な多次元コスト制約を調節する。
Google Scanned Objects, BigBIRD, YCBデータセットを複数のメッシュ品質指標で評価し,LLMの文献からさまざまなコスト制約に適応したルーティングベースラインに対して一貫した改善を実証した。
さらに,ロボットのつかみ方と巧妙な操作実験により,この枠組みを検証した。
コードと追加の結果はウェブサイトで公開しています。
関連論文リスト
- Differentiable Inverse Graphics for Zero-shot Scene Reconstruction and Robot Grasping [0.820984376071696]
我々は,ニューラルネットワークモデルと物理に基づく微分可能レンダリングを組み合わせて,ゼロショットシーン再構成とロボットの把握を行う,微分可能なニューログラフィックモデルを提案する。
我々のアプローチは、新しい環境におけるよりデータ効率が高く、解釈可能で、一般化可能なロボット自律性への道筋を提供する。
論文 参考訳(メタデータ) (2026-02-04T20:33:50Z) - D3D-VLP: Dynamic 3D Vision-Language-Planning Model for Embodied Grounding and Navigation [66.7166217399105]
エージェントは、エンドツーエンドモデルには解釈可能性や明示的な3D推論が欠けているという、重要なジレンマに直面します。
1) 計画,グラウンド,ナビゲーション,質問応答を単一の3D-VLMパイプラインとCoTパイプラインで統一する動的3Dチェーン(3D CoT) ; 2) フラグメンテッド・スーパービジョン(SLFS)戦略からのシナジスティック学習 マスク付き自己回帰損失を用いて,大規模かつ部分的に注釈付けされたハイブリッドデータから学習する。
論文 参考訳(メタデータ) (2025-12-14T09:53:15Z) - FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction [69.63414788486578]
FreeSplatterはスケーラブルなフィードフォワードフレームワークで、キャリブレーションされていないスパースビュー画像から高品質な3Dガウシアンを生成する。
当社のアプローチでは,自己注意ブロックが情報交換を容易にする合理化トランスフォーマーアーキテクチャを採用している。
包括的データセットに基づいて,オブジェクト中心とシーンレベルの再構築のための2つの特殊な変種を開発する。
論文 参考訳(メタデータ) (2024-12-12T18:52:53Z) - Img2CAD: Reverse Engineering 3D CAD Models from Images through VLM-Assisted Conditional Factorization [29.177153478213366]
画像からのリバースエンジニアリング3Dコンピュータ支援設計(CAD)モデルは、多くのダウンストリームアプリケーションにとって重要な課題である。
本研究では,タスクを2つのサブプロブレムに条件付き分解する手法を提案する。
本稿では,個別構造にセマンティクスを組み込んだTrAssemblerを提案し,連続的な属性値を予測する。
論文 参考訳(メタデータ) (2024-07-19T06:53:30Z) - SM$^3$: Self-Supervised Multi-task Modeling with Multi-view 2D Images
for Articulated Objects [24.737865259695006]
そこで本研究では, SM$3$と呼ばれる自己教師型相互作用認識手法を提案する。
取得した2次元画像から3次元の幾何学とテクスチャを構築することで、SM$3$は可動部と関節パラメータの統合最適化を実現する。
SM$3$は、様々なカテゴリやオブジェクトにわたる既存のベンチマークを上回り、実際のシナリオにおける適応性は、徹底的に検証されている。
論文 参考訳(メタデータ) (2024-01-17T11:15:09Z) - Viewset Diffusion: (0-)Image-Conditioned 3D Generative Models from 2D
Data [76.38261311948649]
Viewset Diffusionは拡散に基づくジェネレータで、3Dオブジェクトを出力する。
拡散モデルをトレーニングし、ビューセットを生成するが、ニューラルネットワークジェネレータを設計し、内部で対応する3Dモデルを再構成する。
モデルはフィードフォワード方式で効率的に再構成を行い、ビューセット当たり3ビューのレンダリング損失のみを用いてトレーニングされる。
論文 参考訳(メタデータ) (2023-06-13T16:18:51Z) - Shape, Pose, and Appearance from a Single Image via Bootstrapped
Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。
そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。
当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文 参考訳(メタデータ) (2022-11-21T17:42:42Z) - Amodal 3D Reconstruction for Robotic Manipulation via Stability and
Connectivity [3.359622001455893]
学習に基づく3Dオブジェクト再構成により、3Dオブジェクトモデルの単一または少数ショット推定が可能となる。
既存の3D再構成技術は、通常、シャムファー距離またはボクセルIOUによって測定される視覚的再構成忠実度を最適化する。
本稿では,オブジェクト形状よりも先に安定性を導入するアモーダル3D再構成システムARMと,接続前の接続,マルチチャネル入力表現を提案する。
論文 参考訳(メタデータ) (2020-09-28T08:52:54Z) - PaMIR: Parametric Model-Conditioned Implicit Representation for
Image-based Human Reconstruction [67.08350202974434]
本研究では,パラメトリックボディモデルと自由形深部暗黙関数を組み合わせたパラメトリックモデル記述型暗黙表現(PaMIR)を提案する。
本手法は, 挑戦的なポーズや衣料品のタイプにおいて, 画像に基づく3次元再構築のための最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-08T02:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。