論文の概要: AffordanceGrasp-R1:Leveraging Reasoning-Based Affordance Segmentation with Reinforcement Learning for Robotic Grasping
- arxiv url: http://arxiv.org/abs/2602.03547v1
- Date: Tue, 03 Feb 2026 14:00:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.489699
- Title: AffordanceGrasp-R1:Leveraging Reasoning-Based Affordance Segmentation with Reinforcement Learning for Robotic Grasping
- Title(参考訳): AffordanceGrasp-R1:Leveraging Reasoning-based Affordance Segmentation with Reinforcement Learning for Robotic Grasping
- Authors: Dingyi Zhou, Mu He, Zhuowei Fang, Xiangtong Yao, Yinlong Liu, Alois Knoll, Hu Cao,
- Abstract要約: AffordanceGrasp-R1は、ロボットグリップのための推論駆動のアベイランスセグメンテーションフレームワークである。
AffordanceGrasp-R1は、ベンチマークデータセットにおける最先端(SOTA)メソッドよりも一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 37.71157510922818
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce AffordanceGrasp-R1, a reasoning-driven affordance segmentation framework for robotic grasping that combines a chain-of-thought (CoT) cold-start strategy with reinforcement learning to enhance deduction and spatial grounding. In addition, we redesign the grasping pipeline to be more context-aware by generating grasp candidates from the global scene point cloud and subsequently filtering them using instruction-conditioned affordance masks. Extensive experiments demonstrate that AffordanceGrasp-R1 consistently outperforms state-of-the-art (SOTA) methods on benchmark datasets, and real-world robotic grasping evaluations further validate its robustness and generalization under complex language-conditioned manipulation scenarios.
- Abstract(参考訳): AffordanceGrasp-R1は,CoT(チェーン・オブ・ソート)コールドスタート戦略と強化学習を組み合わせて,推論と空間的接地を向上させる,ロボットグルーピングのための推論駆動型アベイランスセグメンテーションフレームワークである。
さらに、グローバルなシーンポイントクラウドから把握候補を生成し、次に命令条件付きアベイランスマスクを用いてフィルタリングすることで、把握パイプラインをよりコンテキスト対応に再設計する。
大規模な実験により、AffordanceGrasp-R1はベンチマークデータセットにおける最先端(SOTA)メソッドを一貫して上回り、複雑な言語条件の操作シナリオ下での堅牢性と一般化をさらに実証する。
関連論文リスト
- Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion [31.189038928192648]
Co2Sは半教師付きRSセグメンテーションフレームワークで、ビジョン言語モデルと自己教師型モデルとを融合する。
テキスト埋め込みと学習可能なクエリを利用した,明示的でシンプルなセマンティックコガイダンス機構が導入された。
6つの一般的なデータセットに対する実験は,提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2025-12-28T18:24:19Z) - Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。
Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-12-25T06:31:11Z) - ViSS-R1: Self-Supervised Reinforcement Video Reasoning [84.1180294023835]
本稿では,新しい自己教師付き強化学習GRPOアルゴリズム(Pretext-GRPO)を標準R1パイプライン内に導入する。
また、プリテキストタスクに基づく自己教師型学習をMLLMのR1ポストトレーニングパラダイムに直接統合するViSS-R1フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-17T07:00:42Z) - Automated Skill Decomposition Meets Expert Ontologies: Bridging the Granularity Gap with LLMs [1.2891210250935148]
本稿では,Large Language Models (LLM) を用いた自動スキル分解について検討する。
我々のフレームワークは、パイプラインをプロンプトと生成から正規化とオントロジーノードとのアライメントまで標準化する。
出力を評価するために、コンテンツ精度を評価するために最適な埋め込みベースのマッチングを使用するF1スコアと、粒度を評価するために構造的に正しい配置を信用する階層型F1スコアの2つの指標を導入する。
論文 参考訳(メタデータ) (2025-10-13T12:03:06Z) - Let LLMs Speak Embedding Languages: Generative Text Embeddings via Iterative Contrastive Refinement [5.580772351753706]
GIRCSE(Generative Iterative Refinement for Contrastive Sentence Embeddings)は,自己回帰生成を利用して意味表現を反復的に洗練する新しいフレームワークである。
その結果,表現学習の新たなパラダイムとして,生成的反復洗練が確立された。
論文 参考訳(メタデータ) (2025-09-29T05:09:08Z) - First RAG, Second SEG: A Training-Free Paradigm for Camouflaged Object Detection [14.070196423996045]
既存のアプローチは、しばしば重い訓練と大きな計算資源に依存している。
RAG-SEGはCODを2段階に分離し,粗いマスクをプロンプトとして生成するRAG(Retrieval-Augmented Generation)と,改良のためのSAMベースセグメンテーション(SEG)の2つを提案する。
RAG-SEGは、教師なしクラスタリングによってコンパクトな検索データベースを構築し、高速かつ効果的な特徴検索を可能にする。
ベンチマークCODデータセットの実験では、RAG-SEGが最先端の手法に匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-08-21T07:14:18Z) - HOID-R1: Reinforcement Learning for Open-World Human-Object Interaction Detection Reasoning with Multimodal Large Language Model [13.82578761807402]
HOID-R1は,チェーン・オブ・シント(CoT)とグループ相対的ポリシー最適化のファインチューニングを統合した最初のHOI検出フレームワークである。
CoT推論における幻覚を軽減するために,CoT出力を監督するMLLM-as-a-judge機構を導入する。
実験により、HOID-R1はHOI検出ベンチマークの最先端性能を達成し、新しいシナリオへのオープンワールドの一般化における既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-08-15T09:28:57Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - CogDual: Enhancing Dual Cognition of LLMs via Reinforcement Learning with Implicit Rule-Based Rewards [53.36917093757101]
ロールプレイング言語エージェント (RPLA) は,Large Language Models (LLM) に対する重要な適用方向として登場した。
テキスト認識対応推論パラダイムを採用した新しいRPLAであるtextbfCogDualを紹介する。
外部状況認識と内部自己認識を共同でモデル化することにより、CagDualは文字整合性と文脈整合性を改善した応答を生成する。
論文 参考訳(メタデータ) (2025-07-23T02:26:33Z) - CoopInit: Initializing Generative Adversarial Networks via Cooperative
Learning [50.90384817689249]
CoopInitは、協力的な学習ベースの戦略で、GANにとって良い出発点を素早く学べる。
本稿では,画像生成における提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-03-21T07:49:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。