論文の概要: RAAP: Retrieval-Augmented Affordance Prediction with Cross-Image Action Alignment
- arxiv url: http://arxiv.org/abs/2603.29419v1
- Date: Tue, 31 Mar 2026 08:25:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.350376
- Title: RAAP: Retrieval-Augmented Affordance Prediction with Cross-Image Action Alignment
- Title(参考訳): RAAP:クロスイメージ・アクションアライメントによる検索機能強化予測
- Authors: Qiyuan Zhuang, He-Yang Xu, Yijun Wang, Xin-Yang Zhao, Yang-Yang Li, Xiu-Shen Wei,
- Abstract要約: 本稿では、アライメントに基づく学習でアライメント検索を統一するフレームワークであるRetrieval-Augmented Affordance Prediction (RAAP)を紹介する。
RAAPは、見えないオブジェクトやカテゴリ間で一貫したパフォーマンスを実現し、シミュレーションと現実世界の両方でゼロショットロボット操作を可能にする。
- 参考スコア(独自算出の注目度): 24.56022188153146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding object affordances is essential for enabling robots to perform purposeful and fine-grained interactions in diverse and unstructured environments. However, existing approaches either rely on retrieval, which is fragile due to sparsity and coverage gaps, or on large-scale models, which frequently mislocalize contact points and mispredict post-contact actions when applied to unseen categories, thereby hindering robust generalization. We introduce Retrieval-Augmented Affordance Prediction (RAAP), a framework that unifies affordance retrieval with alignment-based learning. By decoupling static contact localization and dynamic action direction, RAAP transfers contact points via dense correspondence and predicts action directions through a retrieval-augmented alignment model that consolidates multiple references with dual-weighted attention. Trained on compact subsets of DROID and HOI4D with as few as tens of samples per task, RAAP achieves consistent performance across unseen objects and categories, and enables zero-shot robotic manipulation in both simulation and the real world. Project website: https://github.com/SEU-VIPGroup/RAAP.
- Abstract(参考訳): ロボットが多様で非構造的な環境で、目的的かつきめ細かな対話を行えるようにするためには、オブジェクトの余裕を理解することが不可欠である。
しかし、既存のアプローチは、疎度とカバレッジギャップによる脆弱な検索に依存するか、大規模モデルに依存しており、接触点をしばしば非局所化し、目に見えないカテゴリに適用した場合に接触後の動作を誤予測し、堅牢な一般化を妨げる。
本稿では、アライメントに基づく学習でアライメント検索を統一するフレームワークであるRetrieval-Augmented Affordance Prediction (RAAP)を紹介する。
静的接触の局所化と動的動作方向を分離することにより、RAAPは密接な対応を通して接触点を転送し、二重重み付き注意で複数の参照を集約した検索強化アライメントモデルにより行動方向を予測する。
DROIDとHOI4Dのコンパクトなサブセットをタスク毎に数十のサンプルでトレーニングすることで、RAAPは見えないオブジェクトやカテゴリ間で一貫したパフォーマンスを実現し、シミュレーションと現実世界の両方でゼロショットロボット操作を可能にする。
プロジェクトウェブサイト: https://github.com/SEU-VIPGroup/RAAP
関連論文リスト
- Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition [71.5328300638085]
Zero-shot Human-Object Interaction (HOI) は、画像中の人間と物体を特定し、その相互作用を認識することを目的としている。
2段階法を含む既存の手法は、特定の検出器との相互作用認識を密に結合する。
本稿では、オブジェクト検出をIRから分離し、マルチモーダル大言語モデル(MLLM)をゼロショットIRに活用する分離フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-16T19:01:31Z) - Adaptive Causal Coordination Detection for Social Media: A Memory-Guided Framework with Semi-Supervised Learning [1.5683405037750644]
ACCDは3段階のプログレッシブアーキテクチャを採用し、メモリ誘導適応機構を利用して最適な検出設定を学習し維持する。
Twitter IRAデータセット、Redditのコーディネーショントレース、および広く採用されているボット検出ベンチマークなど、実世界のデータセットを使用して包括的な評価を行う。
ACCDのF1スコアは87.3%で、最強のベースラインよりも15.2%向上している。
論文 参考訳(メタデータ) (2026-01-01T17:27:52Z) - Nav-$R^2$ Dual-Relation Reasoning for Generalizable Open-Vocabulary Object-Goal Navigation [67.68165784193556]
Nav-$R2$は、ターゲット環境モデリングと環境行動計画という2つのタイプの関係を明示的にモデル化するフレームワークである。
我々のSA-Memは、時間的・意味的両面から最も標的に関連し、現在の観測関連の特徴を保っている。
Nav-R2は、合理化され効率的なパイプラインを通して見えないオブジェクトをローカライズする、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-12-02T04:21:02Z) - PASG: A Closed-Loop Framework for Automated Geometric Primitive Extraction and Semantic Anchoring in Robotic Manipulation [14.311585896189506]
本稿では,タスク意味論と幾何学的特徴のギャップを埋めるために,Primitive-Aware Semantic Grounding (PASG)を提案する。
手動アノテーションに匹敵する性能を達成し,多様なシナリオにまたがる実用的なロボット操作タスクにおけるPASGの有効性を実証する。
論文 参考訳(メタデータ) (2025-08-08T03:23:33Z) - Learning-To-Rank Approach for Identifying Everyday Objects Using a
Physical-World Search Engine [0.8749675983608172]
我々は,オープン語彙のユーザ命令から対象オブジェクトをループで検索する作業に焦点をあてる。
本稿では,学習からランクの物理オブジェクトタスクのための新しいアプローチであるMultiRankItを提案する。
論文 参考訳(メタデータ) (2023-12-26T01:40:31Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Hybrid Relation Guided Set Matching for Few-shot Action Recognition [51.3308583226322]
本稿では,2つの鍵成分を組み込んだHybrid Relation Guided Set Matching (HyRSM) 手法を提案する。
ハイブリッドリレーションモジュールの目的は、エピソード内の関連関係とクロスビデオの完全活用により、タスク固有の埋め込みを学習することである。
我々は,HyRSMを6つの挑戦的ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-04-28T11:43:41Z) - Towards Optimal Correlational Object Search [25.355936023640506]
相関オブジェクト探索POMDPは相関情報を用いた探索戦略を作成することができる。
我々は,家庭環境の現実的なシミュレータであるAI2-THORと,広く使用されている物体検出器であるYOLOv5を用いて実験を行った。
論文 参考訳(メタデータ) (2021-10-19T14:03:43Z) - Reformulating HOI Detection as Adaptive Set Prediction [25.44630995307787]
我々は適応セット予測問題としてHOI検出を再構成する。
本稿では,並列インスタンスとインタラクションブランチを備えた適応型セットベースワンステージフレームワーク(as-net)を提案する。
この手法は、人間のポーズや言語的特徴を必要とせず、従来の最先端の手法を上回ります。
論文 参考訳(メタデータ) (2021-03-10T10:40:33Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。