Fugu-MT 論文翻訳(概要): GraspCorrect: Robotic Grasp Correction via Vision-Language Model-Guided Feedback

論文の概要: GraspCorrect: Robotic Grasp Correction via Vision-Language Model-Guided Feedback

arxiv url: http://arxiv.org/abs/2503.15035v1
Date: Wed, 19 Mar 2025 09:25:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-20 17:45:40.919886
Title: GraspCorrect: Robotic Grasp Correction via Vision-Language Model-Guided Feedback
Title（参考訳）: GraspCorrect:視覚言語モデル誘導フィードバックによるロボット用Grasp補正
Authors: Sungjae Lee, Yeonjoo Hong, Kwang In Kim,
Abstract要約: 最先端の政策モデルでさえ不安定な把握行動を示すことが多い。視覚言語モデル誘導フィードバックによるグルーピング性能の向上を目的とした,プラグイン・アンド・プレイモジュールであるGraspCorrectを紹介する。
参考スコア（独自算出の注目度）: 23.48582504679409
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Despite significant advancements in robotic manipulation, achieving consistent and stable grasping remains a fundamental challenge, often limiting the successful execution of complex tasks. Our analysis reveals that even state-of-the-art policy models frequently exhibit unstable grasping behaviors, leading to failure cases that create bottlenecks in real-world robotic applications. To address these challenges, we introduce GraspCorrect, a plug-and-play module designed to enhance grasp performance through vision-language model-guided feedback. GraspCorrect employs an iterative visual question-answering framework with two key components: grasp-guided prompting, which incorporates task-specific constraints, and object-aware sampling, which ensures the selection of physically feasible grasp candidates. By iteratively generating intermediate visual goals and translating them into joint-level actions, GraspCorrect significantly improves grasp stability and consistently enhances task success rates across existing policy models in the RLBench and CALVIN datasets.
Abstract（参考訳）: ロボット操作の大幅な進歩にもかかわらず、一貫性と安定した把握を達成することは、しばしば複雑なタスクの実行を成功させるという根本的な課題である。我々の分析によると、最先端のポリシーモデルでさえ不安定な把握行動を示し、現実のロボットアプリケーションにボトルネックを生じさせるような障害を発生させる。これらの課題に対処するために,視覚言語モデル誘導フィードバックによるグルーピング性能の向上を目的とした,プラグイン・アンド・プレイモジュールであるGraspCorrectを導入する。 GraspCorrectでは、タスク固有の制約を含むグリップ誘導プロンプトと、物理的に実現可能なグリップ候補の選択を保証するオブジェクト認識サンプリングという、2つの重要なコンポーネントを備えた反復的な視覚的質問応答フレームワークを採用している。中間的な視覚目標を反復的に生成し、それらを共同レベルのアクションに変換することで、GraspCorrectは把握安定性を大幅に改善し、RLBenchおよびCALVINデータセット内の既存のポリシーモデル間のタスク成功率を一貫して向上させる。

関連論文リスト

Towards Robust Semantic Correspondence: A Benchmark and Insights [0.0]
有害な条件下での意味的対応を評価するための新しいベンチマークを構築した。ベンチマークデータセットは、一般的に遭遇する撮像問題を反映した14の異なる挑戦的なシナリオで構成されている。セマンティック・コンパレンス・アプローチの堅牢性に関するいくつかの重要な洞察を提供する。
論文参考訳（メタデータ） (2025-08-01T02:38:39Z)
Diagnosing and Mitigating Modality Interference in Multimodal Large Language Models [28.20124264650572]
MLLM(Multimodal Large Language Models)はタスク間で印象的な機能を示す。特にVQA(Visual Question Answering)のようなタスクにおいて、タスク関連と無関係な信号の区別が難しい場合が多い。この脆弱性は、画像分類や純粋なテキスト質問応答など、モダリティ固有のタスクでより明確になる。本稿では,摂動と対向的摂動を併用した摂動に基づくデータ拡張を含む,MLLMを微調整する新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-05-26T07:31:32Z)
Salience-Invariant Consistent Policy Learning for Generalization in Visual Reinforcement Learning [12.9372563969007]
見えないシナリオにポリシーを一般化することは、視覚的強化学習において重要な課題である。目に見えない環境では、不注意なピクセルがエージェントにタスク関連情報を含む表現を抽出させる可能性がある。ゼロショット一般化のための効率的なフレームワークであるSalience-Invariant Consistent Policy Learningアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-12T12:00:16Z)
SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation [14.786100203787194]
大規模な言語モデルは、単純なコード生成タスクでは例外的なパフォーマンスを示しますが、複雑な問題に対処する上での課題に直面します。本稿では,高品質な中間推論経路を自律的に生成するモデルであるSRA-MCTSを提案する。我々の手法は、追加の監督を必要とせず、モデル自体を通して完全に機能する。
論文参考訳（メタデータ） (2024-11-17T12:31:04Z)
Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks [50.75902473813379]
本研究は、そのようなモデルの一般化能力における命令と入力の役割を体系的に検証する包括的評価フレームワークを導入する。提案フレームワークは,極度の命令摂動に対するマルチモーダルモデルのレジリエンスと,観測的変化に対する脆弱性を明らかにする。
論文参考訳（メタデータ） (2024-07-04T14:36:49Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model [86.9619638550683]
視覚言語基礎モデルは、画像とテキストのペアデータに拡張性があるため、多数の下流タスクで顕著な成功を収めている。しかし、これらのモデルは、決定ショートカットの結果、きめ細かな画像分類などの下流タスクに適用した場合に重大な制限を呈する」。
論文参考訳（メタデータ） (2024-03-01T09:01:53Z)
CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-02-06T18:43:48Z)
De-fine: Decomposing and Refining Visual Programs with Auto-Feedback [75.62712247421146]
De-fineは、複雑なタスクを単純なサブタスクに分解し、オートフィードバックを通じてプログラムを洗練する、トレーニング不要のフレームワークである。様々な視覚的タスクに対する我々の実験は、De-fineがより堅牢なプログラムを生成することを示している。
論文参考訳（メタデータ） (2023-11-21T06:24:09Z)
GADY: Unsupervised Anomaly Detection on Dynamic Graphs [18.1896489628884]
本稿では,従来の離散的手法の限界を突破する細粒度情報を取得するための連続的動的グラフモデルを提案する。第2の課題として、負の相互作用を生成するためにジェネレーティブ・アドバイサル・ネットワーク(Generative Adversarial Networks)を開拓した。提案したGADYは,3つの実世界のデータセットにおいて,従来の最先端手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2023-10-25T05:27:45Z)
Exposing and Addressing Cross-Task Inconsistency in Unified Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文参考訳（メタデータ） (2023-03-28T16:57:12Z)
Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文参考訳（メタデータ） (2020-07-14T16:42:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。