論文の概要: AFUN: Towards an Affordance Foundation Model for Functionality Understanding
- arxiv url: http://arxiv.org/abs/2606.02551v1
- Date: Mon, 01 Jun 2026 17:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.552576
- Title: AFUN: Towards an Affordance Foundation Model for Functionality Understanding
- Title(参考訳): AFUN:機能理解のためのAffordance Foundation Modelを目指して
- Authors: Zhaoning Wang, Yi Zhong, Jiawei Fu, Henrik I. Christensen, Jun Gao,
- Abstract要約: 我々は,機能理解のための手頃な基礎モデルに向けたステップとして,我々のモデルを提示する。
我々は、異種ロボット、人間、シミュレーション、現実世界のスキャンデータを共有価格スキーマに変換する大規模な標準化データパイプラインを構築します。
私たちのモデルは、4つのベンチマークから8つのテストセットにまたがる大きなマージンで、すべてのベースラインを上回ります。
- 参考スコア(独自算出の注目度): 12.890216832485647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Affordance understanding bridges visual perception and physical action, serving as an explainable interface for robot manipulation in open and unstructured real-world environments. Yet, building an affordance foundation model that not only understands where and how the interaction should happen, but also generalizes across diverse environments, objects, and tasks, remains a long-standing research challenge. Existing methods typically address only part of this challenge, either localizing task-relevant regions without specifying executable motion, or predicting motion but with limited scalability. In this paper, we present ourmodel, a step towards an affordance foundation model for functionality understanding. From a single RGB-D observation and a language task description, ourmodel predicts a task-conditional functional mask (where to interact) and a 3D post-contact motion curve (how to interact). To support open-world generalization, we build a large-scale standardized data pipeline that converts heterogeneous robot, human, simulation, and real-world scan data into a shared affordance schema with language, masks, and object-centric 3D motion labels. We evaluate ourmodel from three aspects: for affordance segmentation, ourmodel outperforms all baselines by a large margin across 8 test sets from 4 benchmarks, improving mean gIoU/cIoU by +23.9/+26.3; for contact-point prediction, it predicts substantially more accurate points, with a 12.7--61.3% hit-rate gain over the best baseline; and for 3D motion, it achieves the best performance on all three test sets. ourmodel can be deployed for real-world robot manipulation without finetuning for robot embodiment or using task-specific heuristics, demonstrating the ability to adapt to open-world affordance tasks. Project page: https://www.zhaoningwang.com/AFUN
- Abstract(参考訳): Affordance understandingは視覚的知覚と身体的動作を橋渡しし、オープンで非構造化された現実世界環境でロボットを操作するための説明可能なインターフェースとして機能する。
しかし、インタラクションの場所や方法だけでなく、さまざまな環境、オブジェクト、タスクにまたがる一般化も理解する余裕基盤モデルを構築することは、長年にわたる研究課題である。
既存の手法では、実行可能動作を指定せずにタスク関連領域をローカライズしたり、動作を予測するが、拡張性は限られている。
本稿では,機能理解のための手頃な基礎モデルに向けてのステップとして,我々のモデルを提案する。
一つのRGB-D観測と言語タスク記述から、我々のモデルはタスク条件付き機能マスク(相互作用の場所)と3D後運動曲線(相互作用の仕方)を予測する。
オープンワールドの一般化を支援するため,異種ロボット,人間,シミュレーション,実世界のスキャンデータを,言語,マスク,オブジェクト中心の3Dモーションラベルを備えた共有価格スキーマに変換する,大規模な標準化データパイプラインを構築した。
我々のモデルは,価格セグメンテーションにおいて,平均gIoU/cIoU+23.9/+26.3で,平均gIoU/cIoUを+23.9/+26.3で改善した。
私たちのモデルは、ロボットの具体化やタスク固有のヒューリスティックの使用を微調整することなく、現実世界のロボット操作のためにデプロイできます。
プロジェクトページ:https://www.zhaoningwang.com/AFUN
関連論文リスト
- ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning [31.000965640377128]
ABot-M0は、システマティックデータキュレーションパイプラインを構築するフレームワークである。
これは不均一な生データを統一的で効率的な表現にエンドツーエンドに変換することを可能にする。
ABot-M0はデュアルストリーム機構を通じてモジュール認識をサポートする。
論文 参考訳(メタデータ) (2026-02-11T16:47:01Z) - Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。
物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。
ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文 参考訳(メタデータ) (2026-01-13T23:36:30Z) - O$^3$Afford: One-Shot 3D Object-to-Object Affordance Grounding for Generalizable Robotic Manipulation [8.1159855043566]
我々は,限られたデータ制約下でのオブジェクト・ツー・オブジェクト・アベイランス・グラウンドディングの課題に対処する。
近年の2次元視覚基礎モデルによる数ショット学習の進歩に触発され,ロボット操作のための1Dオブジェクト・オブジェクト・アベイランス・ラーニング・アプローチを提案する。
3Dオブジェクト・ツー・オブジェクト・アベイランス・グラウンドとロボット操作による実験により,O$3$Affordは,精度と一般化能力の両面で,既存のベースラインを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-09-07T22:45:06Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。