論文の概要: A4-Agent: An Agentic Framework for Zero-Shot Affordance Reasoning
- arxiv url: http://arxiv.org/abs/2512.14442v1
- Date: Tue, 16 Dec 2025 14:27:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.747229
- Title: A4-Agent: An Agentic Framework for Zero-Shot Affordance Reasoning
- Title(参考訳): A4-Agent:zero-Shot Affordance Reasoningのためのエージェントフレームワーク
- Authors: Zixin Zhang, Kanghao Chen, Hanqing Wang, Hongfei Zhang, Harold Haodong Chen, Chenfei Liao, Litao Guo, Ying-Cong Chen,
- Abstract要約: 言語命令に基づいてオブジェクト上のインタラクション領域を識別するアクダクタンス予測は、AIの具体化に不可欠である。
A4-Agentは,アベイランス予測を3段階のパイプラインに分離する,トレーニングフリーのエージェントフレームワークである。
我々のフレームワークは、複数のベンチマークで最先端の教師付きメソッドよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 29.682282730123234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Affordance prediction, which identifies interaction regions on objects based on language instructions, is critical for embodied AI. Prevailing end-to-end models couple high-level reasoning and low-level grounding into a single monolithic pipeline and rely on training over annotated datasets, which leads to poor generalization on novel objects and unseen environments. In this paper, we move beyond this paradigm by proposing A4-Agent, a training-free agentic framework that decouples affordance prediction into a three-stage pipeline. Our framework coordinates specialized foundation models at test time: (1) a $\textbf{Dreamer}$ that employs generative models to visualize $\textit{how}$ an interaction would look; (2) a $\textbf{Thinker}$ that utilizes large vision-language models to decide $\textit{what}$ object part to interact with; and (3) a $\textbf{Spotter}$ that orchestrates vision foundation models to precisely locate $\textit{where}$ the interaction area is. By leveraging the complementary strengths of pre-trained models without any task-specific fine-tuning, our zero-shot framework significantly outperforms state-of-the-art supervised methods across multiple benchmarks and demonstrates robust generalization to real-world settings.
- Abstract(参考訳): 言語命令に基づいてオブジェクト上のインタラクション領域を識別するアクダクタンス予測は、AIの具体化に不可欠である。
一般的なエンドツーエンドモデルは、単一のモノリシックパイプラインに高レベルの推論と低レベルの基盤を組み、アノテーション付きデータセットのトレーニングに依存する。
本稿では,A4-Agentを3段階のパイプラインに分解するトレーニングフリーエージェントフレームワークとして提案することで,このパラダイムを克服する。
a $\textbf{Dreamer}$ 生成モデルを使って$\textit{how}$ インタラクションを視覚化する; (2) $\textbf{Thinker}$ 大きなビジョン言語モデルを使って相互作用する$\textit{what}$ オブジェクトパーツを決定する; (3) $\textbf{Spotter}$ 視覚基盤モデルを編成して$\textit{where}$ インタラクション領域はそこにある。
タスク固有の微調整を伴わない事前学習モデルの相補的強みを活用することで、ゼロショットフレームワークは、複数のベンチマークで最先端の教師あり手法を著しく上回り、実世界の設定への堅牢な一般化を実証する。
関連論文リスト
- FLARE: Robot Learning with Implicit World Modeling [87.81846091038676]
$textbfFLARE$は、予測潜在世界モデリングをロボットポリシー学習に統合する。
$textbfFLARE$は最先端のパフォーマンスを実現し、これまでのポリシー学習のベースラインを最大26%上回っている。
この結果は、暗黙の世界モデリングと高周波ロボット制御を組み合わせた汎用的でスケーラブルなアプローチとして$textbfFLARE$を確立した。
論文 参考訳(メタデータ) (2025-05-21T15:33:27Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - UniF$^2$ace: A Unified Fine-grained Face Understanding and Generation Model [62.66515621965686]
本稿では,2次元離散拡散(D3Diff)損失を伴う新しい理論枠組みを導入し,離散的なスコアマッチング拡散を伴うマスク付き生成モデルを統一する。
このD3Diffは、テキスト入力に沿った高忠実度顔の詳細を合成するモデルの能力を大幅に向上させる。
提案するUniF$2$aceD-1Mは,130Kの微細な画像キャプチャ対と100Mの視覚的質問応答対からなる大規模データセットである。
論文 参考訳(メタデータ) (2025-03-11T07:34:59Z) - A Modern Take on Visual Relationship Reasoning for Grasp Planning [10.543168383800532]
本稿では,視覚的リレーショナル推論による把握計画を提案する。
D3GDは、97の異なるカテゴリから最大35のオブジェクトを持つビンピックシーンを含む、新しいテストベッドである。
また、新しいエンドツーエンドのトランスフォーマーベースの依存性グラフ生成モデルであるD3Gを提案する。
論文 参考訳(メタデータ) (2024-09-03T16:30:48Z) - Robot Instance Segmentation with Few Annotations for Grasping [10.005879464111915]
セミスーパーバイザードラーニング(SSL)とラーニング・スルー・インタラクション(LTI)を組み合わせた新しいフレームワークを提案する。
提案手法は,自己スーパービジョンによる注釈付きデータを利用して,ラベルのない静止画像から生成された擬似シーケンスを用いて時間的コンテキストを組み込む。
本手法をARMBenchmix-object-toteとOCIDの2つのベンチマークで検証し,最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-01T13:58:32Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - One-Shot Open Affordance Learning with Foundation Models [54.15857111929812]
私たちは、モデルがベースオブジェクトカテゴリ毎に1つの例でトレーニングされる、ワンショットのオープンアフォーダンスラーニング(OOAL)を紹介します。
本稿では,視覚的特徴と手頃なテキスト埋め込みとの整合性を高める,シンプルで効果的な設計の視覚言語フレームワークを提案する。
2つのアベイランスセグメンテーションのベンチマーク実験により、提案手法はトレーニングデータの1%未満で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-11-29T16:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。