論文の概要: Affordance-R1: Reinforcement Learning for Generalizable Affordance Reasoning in Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2508.06206v1
- Date: Fri, 08 Aug 2025 10:39:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.201591
- Title: Affordance-R1: Reinforcement Learning for Generalizable Affordance Reasoning in Multimodal Large Language Model
- Title(参考訳): Affordance-R1:マルチモーダル大言語モデルにおける一般化可能なAffordance Reasoningのための強化学習
- Authors: Hanqing Wang, Shaoyang Wang, Yiming Zhong, Zemin Yang, Jiamin Wang, Zhiqing Cui, Jiahao Yuan, Yifan Han, Mingyu Liu, Yuexin Ma,
- Abstract要約: Affordance Groundingは、ロボットが実行するアクションに関連するオブジェクトの特定の領域を予測することに焦点を当てている。
既存のモデルは、しばしば異なるオブジェクト間で共有される余裕を無視する。
Affordance-R1は,認知的CoT誘導グループ相対的政策最適化を統合した,最初の統合型アプライアンス基盤フレームワークである。
- 参考スコア(独自算出の注目度): 23.56313087226691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Affordance grounding focuses on predicting the specific regions of objects that are associated with the actions to be performed by robots. It plays a vital role in the fields of human-robot interaction, human-object interaction, embodied manipulation, and embodied perception. Existing models often neglect the affordance shared among different objects because they lack the Chain-of-Thought(CoT) reasoning abilities, limiting their out-of-domain (OOD) generalization and explicit reasoning capabilities. To address these challenges, we propose Affordance-R1, the first unified affordance grounding framework that integrates cognitive CoT guided Group Relative Policy Optimization (GRPO) within a reinforcement learning paradigm. Specifically, we designed a sophisticated affordance function, which contains format, perception, and cognition rewards to effectively guide optimization directions. Furthermore, we constructed a high-quality affordance-centric reasoning dataset, ReasonAff, to support training. Trained exclusively via reinforcement learning with GRPO and without explicit reasoning data, Affordance-R1 achieves robust zero-shot generalization and exhibits emergent test-time reasoning capabilities. Comprehensive experiments demonstrate that our model outperforms well-established methods and exhibits open-world generalization. To the best of our knowledge, Affordance-R1 is the first to integrate GRPO-based RL with reasoning into affordance reasoning. The code of our method and our dataset is released on https://github.com/hq-King/Affordance-R1.
- Abstract(参考訳): Affordance Groundingは、ロボットが実行するアクションに関連するオブジェクトの特定の領域を予測することに焦点を当てている。
人間とロボットの相互作用、人間と物体の相互作用、操作の実施、知覚の具体化などにおいて重要な役割を担っている。
既存のモデルは、しばしば異なるオブジェクト間で共有される余裕を無視する。なぜなら、それらはChain-of-Thought(CoT)推論能力がなく、ドメイン外一般化と明示的な推論能力を制限するからである。
これらの課題に対処するため,認知型CoT誘導グループ相対政策最適化(GRPO)を強化学習パラダイムに組み込んだ,最初の統一型アベイランス基盤フレームワークであるAffordance-R1を提案する。
具体的には、最適化方向を効果的に導くために、形式、知覚、認知報酬を含む洗練されたアプライアンス関数を設計した。
さらに,トレーニングを支援するために,高品質なアベイランス中心推論データセットReasonAffを構築した。
Affordance-R1は、GRPOによる強化学習と明確な推論データなしでのみ訓練され、堅牢なゼロショットの一般化を実現し、突発的なテスト時間推論能力を示す。
包括的実験により、我々のモデルは確立された手法より優れ、オープンワールドの一般化を示すことが示された。
我々の知る限りでは、Affordance-R1 はGRPO ベースの RL を統合する最初の方法である。
私たちのメソッドとデータセットのコードはhttps://github.com/hq-King/Affordance-R1.comで公開されています。
関連論文リスト
- CogDual: Enhancing Dual Cognition of LLMs via Reinforcement Learning with Implicit Rule-Based Rewards [53.36917093757101]
ロールプレイング言語エージェント (RPLA) は,Large Language Models (LLM) に対する重要な適用方向として登場した。
テキスト認識対応推論パラダイムを採用した新しいRPLAであるtextbfCogDualを紹介する。
外部状況認識と内部自己認識を共同でモデル化することにより、CagDualは文字整合性と文脈整合性を改善した応答を生成する。
論文 参考訳(メタデータ) (2025-07-23T02:26:33Z) - Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。
逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。
この調査は両鎖を統一的推論-検索の観点から合成する。
論文 参考訳(メタデータ) (2025-07-13T03:29:41Z) - DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models [18.06361678575107]
視覚基盤モデルのコンテキスト内推論能力をインセンティブ化する最初の試みであるtextbfDINO-R1 を提案する。
DINO-R1は、新しい強化スタイルのトレーニング戦略である textbfGroup Relative Query Optimization (GRQO) を導入した。
COCO、LVIS、ODinWの実験により、DINO-R1は制御された微調整ベースラインを著しく上回ることが示された。
論文 参考訳(メタデータ) (2025-05-29T21:58:06Z) - RAIDEN-R1: Improving Role-awareness of LLMs via GRPO with Verifiable Reward [7.9399136525335585]
RAIDEN-R1は、VRAR(Verifiable Role-Awareness Reward)を統合した新しい強化学習フレームワークである
マルチLLMコラボレーションにより,高品質で役割対応のChain-of-Thoughtデータセットを構築した。
RAIDENベンチマークの実験では、RAIDEN-R1の優位性が示されている。
論文 参考訳(メタデータ) (2025-05-15T12:22:10Z) - Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。
わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。
Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文 参考訳(メタデータ) (2025-04-17T06:16:11Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - Generalizing Goal-Conditioned Reinforcement Learning with Variational
Causal Reasoning [24.09547181095033]
Causal Graphは、オブジェクトとイベントの関係に基づいて構築された構造である。
2つのステップを交互に行う理論性能保証フレームワークを提案する。
我々の業績改善は因果発見、遷移モデリング、政策トレーニングの活発なサイクルに起因する。
論文 参考訳(メタデータ) (2022-07-19T05:31:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。