論文の概要: Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping
- arxiv url: http://arxiv.org/abs/2309.07970v2
- Date: Mon, 18 Sep 2023 06:17:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 10:09:35.405890
- Title: Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping
- Title(参考訳): ゼロショットタスク指向把握のための言語組込みラミアンスフィールド
- Authors: Adam Rashid, Satvik Sharma, Chung Min Kim, Justin Kerr, Lawrence Chen,
Angjoo Kanazawa, Ken Goldberg
- Abstract要約: LERF-TOGOは自然言語クエリが与えられたオブジェクトのグリップ分布を生成する。
つまり、その関連性出力は、オブジェクト上で不完全なアクティベーションを返すことが多い。
LERF-TOGOは,31個の物理物体のタスク指向対象部位を把握できる能力を評価し,その正解点を81%,正解点を69%,正解点を81%,正解点を69%とした。
- 参考スコア(独自算出の注目度): 36.44414682515723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grasping objects by a specific part is often crucial for safety and for
executing downstream tasks. Yet, learning-based grasp planners lack this
behavior unless they are trained on specific object part data, making it a
significant challenge to scale object diversity. Instead, we propose LERF-TOGO,
Language Embedded Radiance Fields for Task-Oriented Grasping of Objects, which
uses vision-language models zero-shot to output a grasp distribution over an
object given a natural language query. To accomplish this, we first reconstruct
a LERF of the scene, which distills CLIP embeddings into a multi-scale 3D
language field queryable with text. However, LERF has no sense of objectness,
meaning its relevancy outputs often return incomplete activations over an
object which are insufficient for subsequent part queries. LERF-TOGO mitigates
this lack of spatial grouping by extracting a 3D object mask via DINO features
and then conditionally querying LERF on this mask to obtain a semantic
distribution over the object with which to rank grasps from an off-the-shelf
grasp planner. We evaluate LERF-TOGO's ability to grasp task-oriented object
parts on 31 different physical objects, and find it selects grasps on the
correct part in 81% of all trials and grasps successfully in 69%. See the
project website at: lerftogo.github.io
- Abstract(参考訳): 特定の部分によるオブジェクトの把握は、しばしば安全性とダウンストリームタスクの実行に不可欠である。
しかし、学習ベースの把握プランナーは、特定のオブジェクト部分データでトレーニングされない限り、このような振る舞いを欠いている。
そこで本研究では,タスク指向の物体把握のための言語組込み放射場であるlerf-togoを提案する。
そこで我々はまずシーンのLERFを再構築し,CLIPの埋め込みをテキストで検索可能な大規模3D言語フィールドに蒸留する。
しかし、LERFは目的意識を持たないため、その関連性出力は、その後の部分クエリに不十分なオブジェクトに対して不完全なアクティベーションを返すことが多い。
LERF-TOGOはこの空間的グルーピングの欠如を、DINO特徴を介して3Dオブジェクトマスクを抽出し、そのマスク上のLERFを条件付きクエリすることで軽減し、オフザシェルフグリッププランナーからの把握をランク付けするオブジェクトのセマンティック分布を得る。
LERF-TOGOは,31個の物理物体のタスク指向対象部位を把握できる能力を評価し,その正解点を81%,正解点を69%,正解点を81%,正解点を69%とした。
プロジェクトのwebサイト: lerftogo.github.io
関連論文リスト
- In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
空間意味的特徴と識別的オブジェクトクエリを備えたロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
提案手法は,複数のデータセットに対して新しい最先端性能を設定できることを示す。
論文 参考訳(メタデータ) (2024-07-10T15:36:00Z) - MonoMAE: Enhancing Monocular 3D Detection through Depth-Aware Masked Autoencoders [93.87585467898252]
Masked Autoencodersにインスパイアされたモノクラー3D検出器MonoMAEを設計する。
MonoMAEは2つの新しい設計で構成されている。第一に、非閉塞オブジェクトクエリの特定の部分を選択的にマスキングするディープ・アウェア・マスクである。
2つ目は軽量なクエリ補完で、ディープ・アウェア・マスキングと連携して、マスキングされたオブジェクトクエリの再構築と完了を学習する。
論文 参考訳(メタデータ) (2024-05-13T12:32:45Z) - ShapeGrasp: Zero-Shot Task-Oriented Grasping with Large Language Models through Geometric Decomposition [8.654140442734354]
不慣れな物体のタスク指向の把握は、動的家庭環境におけるロボットにとって必要なスキルである。
本稿では,対象物体の幾何学的分解を簡単な凸形状に生かしたゼロショットタスク指向の把握手法を提案する。
このアプローチでは、ゼロショットタスク指向の把握を容易にするために、最小限の必須情報(オブジェクト名と意図したタスク)を使用します。
論文 参考訳(メタデータ) (2024-03-26T19:26:53Z) - See, Say, and Segment: Teaching LMMs to Overcome False Premises [67.36381001664635]
この課題を解決するために,LMMのカスケードと共同学習手法を提案する。
得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
論文 参考訳(メタデータ) (2023-12-13T18:58:04Z) - LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language
Model as an Agent [23.134180979449823]
3Dビジュアルグラウンドティングは、家庭用ロボットにとって重要なスキルであり、その環境に基づいて、オブジェクトをナビゲートし、操作し、質問に答えることを可能にする。
LLM-Grounderは,LLM(Large Language Model)をベースとした新しいゼロショット・オープンボキャブラリである。
以上の結果から,LLMは,特に複雑な言語クエリにおいて,グラウンド化能力を大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-21T17:59:45Z) - LERF: Language Embedded Radiance Fields [35.925752853115476]
Language Embedded Radiance Fields (LERF) は、CLIPのような市販のモデルからNeRFへの言語埋め込みを基盤とする手法である。
LERFは、トレーニング線に沿ってCLIP埋め込みをボリュームレンダリングすることで、NeRF内の密集したマルチスケール言語フィールドを学習する。
最適化後、LERFは広範囲の言語プロンプトに対してリアルタイムに3D関連性マップを抽出できる。
論文 参考訳(メタデータ) (2023-03-16T17:59:20Z) - LaTeRF: Label and Text Driven Object Radiance Fields [8.191404990730236]
シーン全体と既知のカメラポーズの2次元画像から興味の対象を抽出するLaTeRFを提案する。
シーンからオブジェクトを忠実に抽出するために、LaTeRFはNeRFの定式化を3Dポイントごとに追加のオブジェクト性確率で拡張する。
合成データと実データの両方で高忠実度オブジェクト抽出を実証する。
論文 参考訳(メタデータ) (2022-07-04T17:07:57Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。