論文の概要: RoboTAG: End-to-end Robot Configuration Estimation via Topological Alignment Graph
- arxiv url: http://arxiv.org/abs/2511.07717v1
- Date: Wed, 12 Nov 2025 01:12:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.44514
- Title: RoboTAG: End-to-end Robot Configuration Estimation via Topological Alignment Graph
- Title(参考訳): RoboTAG: トポロジカルアライメントグラフによるエンドツーエンドロボット構成推定
- Authors: Yifan Liu, Fangneng Zhan, Wanhua Li, Haowen Sun, Katerina Fragkiadaki, Hanspeter Pfister,
- Abstract要約: 単眼のRGB画像からロボットのポーズを推定することは、ロボット工学とコンピュータビジョンにおける課題である。
既存の手法は通常、2Dビジュアルバックボーン上にネットワークを構築し、トレーニングのためにラベル付きデータに大きく依存する。
ロボットトポロジカルアライメントグラフ(RoboTAG)を提案する。このグラフは3次元分岐を組み込んで3次元前処理を注入し、2次元および3次元表現の共進化を可能にする。
- 参考スコア(独自算出の注目度): 62.270763554624615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating robot pose from a monocular RGB image is a challenge in robotics and computer vision. Existing methods typically build networks on top of 2D visual backbones and depend heavily on labeled data for training, which is often scarce in real-world scenarios, causing a sim-to-real gap. Moreover, these approaches reduce the 3D-based problem to 2D domain, neglecting the 3D priors. To address these, we propose Robot Topological Alignment Graph (RoboTAG), which incorporates a 3D branch to inject 3D priors while enabling co-evolution of the 2D and 3D representations, alleviating the reliance on labels. Specifically, the RoboTAG consists of a 3D branch and a 2D branch, where nodes represent the states of the camera and robot system, and edges capture the dependencies between these variables or denote alignments between them. Closed loops are then defined in the graph, on which a consistency supervision across branches can be applied. This design allows us to utilize in-the-wild images as training data without annotations. Experimental results demonstrate that our method is effective across robot types, highlighting its potential to alleviate the data bottleneck in robotics.
- Abstract(参考訳): 単眼のRGB画像からロボットのポーズを推定することは、ロボット工学とコンピュータビジョンにおける課題である。
既存の手法は通常、2Dビジュアルバックボーン上にネットワークを構築し、トレーニングのためのラベル付きデータに大きく依存する。
さらに、これらのアプローチは、3Dの先行性を無視して、3Dベースの問題を2Dドメインに還元する。
これらの問題に対処するために,ロボットトポロジカルアライメントグラフ (RoboTAG) を提案する。このグラフは3Dブランチを組み込んで,2Dおよび3D表現の共進化を実現し,ラベルへの依存を緩和する。
具体的には、RoboTAGは3Dブランチと2Dブランチで構成されており、ノードはカメラとロボットシステムの状態を表現し、エッジはこれらの変数間の依存関係をキャプチャし、それらの間のアライメントを示す。
クローズドループはグラフで定義され、ブランチ間の一貫性の監督が適用できる。
この設計により、Wildイメージをアノテーションを使わずにトレーニングデータとして利用できる。
実験により,本手法はロボットの種類によって有効であることが示され,ロボット工学におけるデータのボトルネックを軽減する可能性が示された。
関連論文リスト
- RoboEye: Enhancing 2D Robotic Object Identification with Selective 3D Geometric Keypoint Matching [5.240139281459202]
RoboEyeはドメイン適応型3D推論と軽量アダプタで2Dセマンティック機能を追加するフレームワークである。
実験の結果、RoboEyeはRecall@1を7.1%改善した。
論文 参考訳(メタデータ) (2025-09-18T13:59:24Z) - Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。
UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文 参考訳(メタデータ) (2025-03-13T17:56:22Z) - FunGraph: Functionality Aware 3D Scene Graphs for Language-Prompted Scene Interaction [1.8124328823188356]
本研究の目的は,ロボットが環境と直接対話できる表現を開発することである。
我々は、より細かな解像度でオブジェクトを検出し、保存することに集中し、価格関連部品に焦点をあてる。
現在利用可能な3Dリソースを活用して、2Dデータを生成し、検出器をトレーニングし、標準の3Dシーングラフ生成パイプラインを拡張するために使用します。
論文 参考訳(メタデータ) (2025-03-10T23:13:35Z) - Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation [30.744137117668643]
Lift3Dは、ロバストな3D操作ポリシーを構築するために、暗黙的で明示的な3Dロボット表現で2Dファンデーションモデルを強化するフレームワークである。
実験では、Lift3Dはいくつかのシミュレーションベンチマークや実世界のシナリオで、最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-11-27T18:59:52Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Indoor Semantic Scene Understanding using Multi-modality Fusion [0.0]
本研究では,環境のセマンティックマップを生成するために,2次元および3次元検出枝を融合したセマンティックシーン理解パイプラインを提案する。
収集したデータセットで評価された以前の研究とは異なり、私たちはアクティブなフォトリアリスティックなロボット環境でパイプラインをテストする。
我々の新規性には、投影された2次元検出とオブジェクトサイズに基づくモダリティ融合を用いた3次元提案の修正が含まれる。
論文 参考訳(メタデータ) (2021-08-17T13:30:02Z) - CRAVES: Controlling Robotic Arm with a Vision-based Economic System [96.56564257199474]
現実のタスクを達成するためにロボットアームを訓練することは、アカデミックと産業の両方で注目を集めている。
本研究は,この分野におけるコンピュータビジョンアルゴリズムの役割について論じる。
本稿では,3次元モデルを用いて大量の合成データを生成する方法を提案する。
論文 参考訳(メタデータ) (2018-12-03T13:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。