論文の概要: Afford-X: Generalizable and Slim Affordance Reasoning for Task-oriented Manipulation
- arxiv url: http://arxiv.org/abs/2503.03556v1
- Date: Wed, 05 Mar 2025 14:44:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:51:14.945320
- Title: Afford-X: Generalizable and Slim Affordance Reasoning for Task-oriented Manipulation
- Title(参考訳): Afford-X:タスク指向マニピュレーションのための一般化可能かつスリムなAffordance Reasoning
- Authors: Xiaomeng Zhu, Yuyang Li, Leiyao Cui, Pengfei Li, Huan-ang Gao, Yixin Zhu, Hao Zhao,
- Abstract要約: 我々は1,496のタスクと119kの画像からなる大規模データセットであるLVIS-Affを導入し、知覚からの可視性推論の一般化性を高めることを目的とした。
我々は,Verbizable AttentionとBi-Fusionモジュールを組み込んだ,エンドツーエンドのトレーニング可能な価格推論モデルであるAfford-Xを開発した。
本研究は,タスク指向操作のためのローカルデバイスに展開可能な,効率的で汎用的な推論モデルの可能性を示す。
- 参考スコア(独自算出の注目度): 29.541362796943837
- License:
- Abstract: Object affordance reasoning, the ability to infer object functionalities based on physical properties, is fundamental for task-oriented planning and activities in both humans and Artificial Intelligence (AI). This capability, required for planning and executing daily activities in a task-oriented manner, relies on commonsense knowledge of object physics and functionalities, extending beyond simple object recognition. Current computational models for affordance reasoning from perception lack generalizability, limiting their applicability in novel scenarios. Meanwhile, comprehensive Large Language Models (LLMs) with emerging reasoning capabilities are challenging to deploy on local devices for task-oriented manipulations. Here, we introduce LVIS-Aff, a large-scale dataset comprising 1,496 tasks and 119k images, designed to enhance the generalizability of affordance reasoning from perception. Utilizing this dataset, we develop Afford-X, an end-to-end trainable affordance reasoning model that incorporates Verb Attention and Bi-Fusion modules to improve multi-modal understanding. This model achieves up to a 12.1% performance improvement over the best-reported results from non-LLM methods, while also demonstrating a 1.2% enhancement compared to our previous conference paper. Additionally, it maintains a compact 187M parameter size and infers nearly 50 times faster than the GPT-4V API. Our work demonstrates the potential for efficient, generalizable affordance reasoning models that can be deployed on local devices for task-oriented manipulations. We showcase Afford-X's effectiveness in enabling task-oriented manipulations for robots across various tasks and environments, underscoring its efficiency and broad implications for advancing robotics and AI systems in real-world applications.
- Abstract(参考訳): 人間と人工知能(AI)の両方におけるタスク指向の計画と活動には、物価推論(物価推論)、物理的性質に基づく物価関数を推論する能力が不可欠である。
この能力は、タスク指向の方法で日々のアクティビティを計画し実行するために必要であり、単純なオブジェクト認識を超えて、オブジェクト物理学と機能に関する常識的な知識に依存している。
知覚による可測性推論のための現在の計算モデルは、一般化性に欠け、新しいシナリオにおける適用性を制限している。
一方、新たな推論能力を持つ包括的なLarge Language Model(LLM)は、タスク指向の操作のためにローカルデバイスにデプロイすることが困難である。
本稿では,1,496のタスクと119kの画像からなる大規模データセットであるLVIS-Affを紹介する。
このデータセットを利用することで、マルチモーダル理解を改善するためにVerb AttentionとBi-Fusionモジュールを組み込んだ、エンドツーエンドのトレーニング可能なアベイランス推論モデルであるAfford-Xを開発した。
本モデルでは,非LLM法による最良報告結果に対して最大12.1%の性能向上を達成し,従来の論文と比較して1.2%向上した。
さらに、コンパクトな187Mパラメータサイズを維持し、GPT-4V APIの50倍近い速度で推論する。
本研究は,タスク指向操作のためのローカルデバイスに展開可能な,効率的で汎用的な価格推論モデルの可能性を示す。
Afford-Xが様々なタスクや環境にまたがるタスク指向のロボット操作を可能にする上で有効であることを示す。
関連論文リスト
- Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks [0.8425561594225592]
本研究では,関数呼び出しにおいて,より小さな言語モデルを訓練するための新しいフレームワークを提案する。
特定の論理的および数学的推論タスクに焦点を当てている。
このアプローチは,関数呼び出しによるこれらのタスクの小型モデルの性能向上を目的としている。
論文 参考訳(メタデータ) (2024-10-24T16:27:35Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - RH20T-P: A Primitive-Level Robotic Dataset Towards Composable Generalization Agents [105.13169239919272]
プリミティブレベルのロボット操作データセットであるRH20T-Pを提案する。
実際のシナリオで67種類の操作タスクをカバーする約38Kのビデオクリップが含まれている。
我々は、計画実行CGAパラダイムを標準化し、RH20T-PにRA-Pと呼ばれる典型的なベースラインを実装します。
論文 参考訳(メタデータ) (2024-03-28T17:42:54Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。