Fugu-MT 論文翻訳(概要): GLOVER: Generalizable Open-Vocabulary Affordance Reasoning for Task-Oriented Grasping

論文の概要: GLOVER: Generalizable Open-Vocabulary Affordance Reasoning for Task-Oriented Grasping

arxiv url: http://arxiv.org/abs/2411.12286v1
Date: Tue, 19 Nov 2024 07:12:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.027638
Title: GLOVER: Generalizable Open-Vocabulary Affordance Reasoning for Task-Oriented Grasping
Title（参考訳）: GLOVER:タスク指向グラスピングのための一般化可能なOpen-Vocabulary Affordance Reasoning
Authors: Teli Ma, Zifan Wang, Jiaming Zhou, Mengmeng Wang, Junwei Liang,
Abstract要約: 本稿では, 認識可能な対象部品の視覚的可視性を予測するために, 一般化可能なオープンボキャブラリAffordance Reasoningフレームワークを提案する。我々は、視覚と言語を統一したアノテートラベルで注釈付けされた、人間とオブジェクトの相互作用から1万以上の画像のデータセットをコンパイルする。本稿では、アベイランスデータから得られる超四角形面とポーズを整列する非パラメトリックグリッププランナーであるAffordance-Aware Grasping Estimation (AGE)を提案する。
参考スコア（独自算出の注目度）: 23.677556075872793
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Inferring affordable (i.e., graspable) parts of arbitrary objects based on human specifications is essential for robots advancing toward open-vocabulary manipulation. Current grasp planners, however, are hindered by limited vision-language comprehension and time-consuming 3D radiance modeling, restricting real-time, open-vocabulary interactions with objects. To address these limitations, we propose GLOVER, a unified Generalizable Open-Vocabulary Affordance Reasoning framework, which fine-tunes the Large Language Models (LLMs) to predict visual affordance of graspable object parts within RGB feature space. We compile a dataset of over 10,000 images from human-object interactions, annotated with unified visual and linguistic affordance labels, to enable multi-modal fine-tuning. GLOVER inherits world knowledge and common-sense reasoning from LLMs, facilitating more fine-grained object understanding and sophisticated tool-use reasoning. To enable effective real-world deployment, we present Affordance-Aware Grasping Estimation (AGE), a non-parametric grasp planner that aligns the gripper pose with a superquadric surface derived from affordance data. In evaluations across 30 real-world scenes, GLOVER achieves success rates of 86.0% in part identification and 76.3% in grasping, with speeds approximately 330 times faster in affordance reasoning and 40 times faster in grasping pose estimation than the previous state-of-the-art.
Abstract（参考訳）: ロボットがオープン語彙操作に向かって進むためには、人間仕様に基づいて、手頃な(つまり、把握可能な)任意のオブジェクトの部品を推測することが不可欠である。しかし、現在の把握プランナーは、視覚言語による限られた理解と時間を要する3Dラディアンスモデリングによって妨げられ、オブジェクトとのリアルタイムでオープンな対話を制限する。これらの制約に対処するために,GLOVERを提案する。GLOVERは,Large Language Models (LLMs) を微調整し,RGB機能空間内での把握可能なオブジェクト部分の視覚的可視性を予測する,汎用的なOpen-Vocabulary Affordance Reasoningフレームワークである。我々は,視覚的・言語的アベイランスラベルを統一した人間と物体の相互作用から1万枚以上の画像のデータセットをコンパイルし,マルチモーダル微調整を可能にする。 GLOVERはLLMから世界知識と常識推論を継承し、よりきめ細かいオブジェクト理解と洗練されたツール利用推論を促進する。実世界の効果的な展開を実現するために,アダランス・アウェア・グラッピング推定(AGE)という,アダランスデータから導出される超四角形面にグリップパのポーズを整列する非パラメトリックグリッププランナを提案する。 30の現実世界のシーンでの評価において、GLOVERは、部品識別で86.0%、把握で76.3%の成功率を達成する。

関連論文リスト

Information-Theoretic Graph Fusion with Vision-Language-Action Model for Policy Reasoning and Dual Robotic Control [22.74768543283102]
Graph-Fused Vision-Language-Action (GF-VLA)は、デュアルアームロボットシステムがタスクレベルの推論と実行を可能にするフレームワークである。 GF-VLAはまずシャノン情報に基づく手がかりを抽出し、最も高いタスク関連性を持つ手や物体を識別する。クロスハンド選択ポリシーは、明示的な幾何学的推論なしで最適な割り当てを推測する。
論文参考訳（メタデータ） (2025-08-07T12:48:09Z)
RAGNet: Large-scale Reasoning-based Affordance Segmentation Benchmark towards General Grasping [101.22617426879079]
我々は、RAGNetという人間のような命令を用いた大規模把握指向のアベイランスセグメンテーションベンチマークを構築した。画像は、ワイルド、ロボット、エゴ中心、シミュレーションデータなど、さまざまな具体的データドメインをカバーする。 AffordanceNet という,我々の大容量データに基づいて事前訓練された VLM と,目標を把握するためのアベイランスマップを規定するグリーティングネットワークからなる,包括的アベイランスベースのグリーティングフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-31T17:17:05Z)
Affogato: Learning Open-Vocabulary Affordance Grounding with Automated Data Generation at Scale [41.693908591580175]
我々は、事前学習された部分認識型ビジョンバックボーンとテキスト条件のヒートマップデコーダを利用するビジョン言語モデルを開発した。我々のモデルは既存の2Dおよび3Dベンチマークにおいて有望な性能を達成し、特にオープン語彙のクロスドメイン一般化において有効であることを示す。
論文参考訳（メタデータ） (2025-06-13T17:57:18Z)
ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning [68.4209681278336]
Open-vocabulary 3D visual grounding and reasoningは、暗黙の言語記述に基づくシーン内のオブジェクトのローカライズを目的としている。現在の方法は、3Dアノテーションとマスクの提案による微調整に大きく依存しているため、苦労している。適応グルーピングのための階層型3次元特徴ガウス場を用いたLVLM誘導フレームワークであるReasonGrounderを提案する。
論文参考訳（メタデータ） (2025-03-30T03:40:35Z)
3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds [81.14476072159049]
3D Affordance Detectionは、様々なロボットタスクの幅広い応用において難しい問題である。我々は従来の割当検出パラダイムをテキスト推論改善(IRAS)タスクに再構成する。本研究では,3次元オープンシーンにおけるアベイランス検出のためのフレームワークである3D-ADLLMを提案する。
論文参考訳（メタデータ） (2025-02-27T12:29:44Z)
Seeing with Partial Certainty: Conformal Prediction for Robotic Scene Recognition in Built Environments [6.295098866364597]
本稿では,VLMを用いた位置認識における不確実性の測定・調整を目的としたフレームワークであるSeing with partial Certainty(SwPC)を紹介する。 SwPCは、人間の助けを求めるリクエストを最小限に抑えつつ、位置認識に関する統計的保証を提供するために、共形予測の理論に基づいて構築されている。
論文参考訳（メタデータ） (2025-01-09T03:50:00Z)
Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding [85.63710017456792]
FuSeは、不均一なセンサのモダリティに対する微調整型ビズモータ一般政策を可能にする新しいアプローチである。 FuSeは視覚,触覚,音などのモーダル性に対して共同で推論を必要とする挑戦的なタスクを実行できることを示す。実世界での実験では、FuSeisはすべての基準ラインと比較して成功率を20%以上引き上げることができた。
論文参考訳（メタデータ） (2025-01-08T18:57:33Z)
Structured Spatial Reasoning with Open Vocabulary Object Detectors [2.089191490381739]
オブジェクト間の空間的関係に関する推論は多くの実世界のロボット作業において不可欠である。我々は、リッチな3次元幾何学的特徴と最先端のオープンボキャブラリオブジェクト検出器を統合する構造的確率的アプローチを導入する。この手法は、空間推論タスクにおける最先端ビジョン・言語モデル(VLM)のゼロショット性能を評価・比較する。
論文参考訳（メタデータ） (2024-10-09T19:37:01Z)
Towards Open-World Grasping with Large Vision-Language Models [5.317624228510749]
オープンワールドの把握システムは、高レベルの文脈と低レベルの物理幾何学的推論を組み合わせることができるべきである。本稿では,視覚言語モデルとセグメンテーションとグルーピング合成モデルを組み合わせたオープンワールドグルーピングパイプラインOWGを提案する。乱雑な屋内シーンデータセットを用いて,オープンエンド言語を基盤としたOWGのロバスト性を示す。
論文参考訳（メタデータ） (2024-06-26T19:42:08Z)
OpenObj: Open-Vocabulary Object-Level Neural Radiance Fields with Fine-Grained Understanding [21.64446104872021]
オープンな語彙を持つオブジェクトレベルのニューラルフィールドを構築するための革新的なアプローチであるOpenを紹介します。本質的にOpenは、オブジェクトレベルでの効率的かつ水密なシーンモデリングと理解のための堅牢なフレームワークを確立します。複数のデータセットの結果から、Openはゼロショットセマンティクスおよび検索タスクにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-06-12T08:59:33Z)
Is CLIP the main roadblock for fine-grained open-world perception? [7.190567053576658]
最近の研究では、オープン語彙設定における微粒化認識能力の制限が強調されている。細粒度理解の欠如は,CLIP潜伏空間における物体特性の分離性の欠如が原因であることを示す。実験の結果,単純なCLIP遅延空間再射は,微細な概念の分離に役立つことがわかった。
論文参考訳（メタデータ） (2024-04-04T15:47:30Z)
GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields [50.68719394443926]
Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF)は、オープン語彙意味論による3Dシーンの一般化可能な暗黙的表現を提供する新しいアプローチである。 GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセグメンテーションにおいて最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2024-04-01T05:19:50Z)
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文参考訳（メタデータ） (2024-03-05T13:45:46Z)
YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。 YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文参考訳（メタデータ） (2024-01-30T18:59:38Z)
Detecting Any Human-Object Interaction Relationship: Universal HOI Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文参考訳（メタデータ） (2023-11-07T08:27:32Z)
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文参考訳（メタデータ） (2023-07-12T07:40:48Z)
A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented, Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文参考訳（メタデータ） (2023-03-08T01:29:55Z)
INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文参考訳（メタデータ） (2021-08-25T07:35:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。