論文の概要: RAGNet: Large-scale Reasoning-based Affordance Segmentation Benchmark towards General Grasping
- arxiv url: http://arxiv.org/abs/2507.23734v1
- Date: Thu, 31 Jul 2025 17:17:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:10.129389
- Title: RAGNet: Large-scale Reasoning-based Affordance Segmentation Benchmark towards General Grasping
- Title(参考訳): RAGNet: 大規模推論に基づくAffordance Segmentationベンチマーク
- Authors: Dongming Wu, Yanping Fu, Saike Huang, Yingfei Liu, Fan Jia, Nian Liu, Feng Dai, Tiancai Wang, Rao Muhammad Anwer, Fahad Shahbaz Khan, Jianbing Shen,
- Abstract要約: 我々は、RAGNetという人間のような命令を用いた大規模把握指向のアベイランスセグメンテーションベンチマークを構築した。
画像は、ワイルド、ロボット、エゴ中心、シミュレーションデータなど、さまざまな具体的データドメインをカバーする。
AffordanceNet という,我々の大容量データに基づいて事前訓練された VLM と,目標を把握するためのアベイランスマップを規定するグリーティングネットワークからなる,包括的アベイランスベースのグリーティングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 101.22617426879079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General robotic grasping systems require accurate object affordance perception in diverse open-world scenarios following human instructions. However, current studies suffer from the problem of lacking reasoning-based large-scale affordance prediction data, leading to considerable concern about open-world effectiveness. To address this limitation, we build a large-scale grasping-oriented affordance segmentation benchmark with human-like instructions, named RAGNet. It contains 273k images, 180 categories, and 26k reasoning instructions. The images cover diverse embodied data domains, such as wild, robot, ego-centric, and even simulation data. They are carefully annotated with an affordance map, while the difficulty of language instructions is largely increased by removing their category name and only providing functional descriptions. Furthermore, we propose a comprehensive affordance-based grasping framework, named AffordanceNet, which consists of a VLM pre-trained on our massive affordance data and a grasping network that conditions an affordance map to grasp the target. Extensive experiments on affordance segmentation benchmarks and real-robot manipulation tasks show that our model has a powerful open-world generalization ability. Our data and code is available at https://github.com/wudongming97/AffordanceNet.
- Abstract(参考訳): 一般的なロボットの把握システムは、人間の指示に従う様々なオープンワールドシナリオにおいて、正確なオブジェクトの余裕の認識を必要とする。
しかし、近年の研究は、推論に基づく大規模価格予測データの欠如に悩まされており、オープンワールドの有効性についてかなりの懸念を抱いている。
この制限に対処するため,RAGNetという人的命令を用いた大規模グリーピング指向のアベイランスセグメンテーションベンチマークを構築した。
273Kの画像、180のカテゴリ、26kの推論命令を含んでいる。
画像は、ワイルド、ロボット、エゴ中心、シミュレーションデータなど、さまざまな具体的データドメインをカバーする。
注意深いアノテートマップでアノテートするが、言語命令の難しさは、カテゴリ名を取り除き、機能記述のみを提供することによって大きく増大する。
さらに,我々の大規模空きデータに基づいて事前訓練されたVLMと,目標を把握するための空きマップを条件とした把握ネットワークで構成される,包括的空き時間に基づく把握フレームワークであるAffordanceNetを提案する。
割当セグメンテーションベンチマークと実ロボット操作タスクに関する大規模な実験は、我々のモデルが強力なオープンワールド一般化能力を持っていることを示している。
我々のデータとコードはhttps://github.com/wudongming97/AffordanceNet.comで入手できる。
関連論文リスト
- From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios [12.06521067086988]
DenseDiTを提案する。これは、生成モデルの視覚的優先順位を利用して、多様な実世界の密集予測タスクを実行する。
DenseDiTは、ベースラインの0.01%未満のトレーニングデータを使用して優れた結果を得る。
論文 参考訳(メタデータ) (2025-06-25T09:40:50Z) - HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - Chameleon: A Data-Efficient Generalist for Dense Visual Prediction in the Wild [32.33035216140421]
大規模言語モデルは、汎用言語インタフェースと大規模事前学習の恩恵を受け、データ効率のジェネラリストを進化させてきた。
しかし、濃密な視覚予測のためにデータ効率のよいジェネラリストを構築することは、異なるタスクにまたがるラベル構造の変化が原因で、大きな課題となる。
本研究では,不明瞭なラベル構造に柔軟に適用可能な普遍モデルについて,いくつかの例を挙げて検討する。
我々は,ビデオ,3D,医療,生物学的,ユーザインタラクションタスクなど,ローショット学習が望ましい実世界のシナリオの範囲で,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-04-29T06:35:34Z) - On-Device Domain Generalization [93.79736882489982]
ドメインの一般化はデバイス上の機械学習アプリケーションにとって重要である。
知識蒸留がこの問題の解決の有力な候補であることがわかった。
本研究では,教師が配布外データをどのように扱えるかを学生に教えることを目的とした,配布外知識蒸留(OKD)という簡単なアイデアを提案する。
論文 参考訳(メタデータ) (2022-09-15T17:59:31Z) - Learning Cross-domain Generalizable Features by Representation
Disentanglement [11.74643883335152]
ディープラーニングモデルは、異なるドメイン間で限定的な一般化性を示す。
本稿では,MIDNet(Multual-Information-based Disentangled Neural Networks)を提案する。
本手法は手書き桁データセットと胎児超音波データセットを用いて画像分類を行う。
論文 参考訳(メタデータ) (2020-02-29T17:53:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。