Fugu-MT 論文翻訳(概要): LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language Model as an Agent

論文の概要: LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language Model as an Agent

arxiv url: http://arxiv.org/abs/2309.12311v1
Date: Thu, 21 Sep 2023 17:59:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-22 13:38:05.141846
Title: LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language Model as an Agent
Title（参考訳）: LLM-Grounder: エージェントとして大規模言語モデルを用いたオープン語彙3次元視覚グラウンド
Authors: Jianing Yang, Xuweiyi Chen, Shengyi Qian, Nikhil Madaan, Madhavan Iyengar, David F. Fouhey, Joyce Chai
Abstract要約: 3Dビジュアルグラウンドティングは、家庭用ロボットにとって重要なスキルであり、その環境に基づいて、オブジェクトをナビゲートし、操作し、質問に答えることを可能にする。 LLM-Grounderは,LLM(Large Language Model)をベースとした新しいゼロショット・オープンボキャブラリである。以上の結果から,LLMは,特に複雑な言語クエリにおいて,グラウンド化能力を大幅に向上することが示唆された。
参考スコア（独自算出の注目度）: 23.134180979449823
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D visual grounding is a critical skill for household robots, enabling them to navigate, manipulate objects, and answer questions based on their environment. While existing approaches often rely on extensive labeled data or exhibit limitations in handling complex language queries, we propose LLM-Grounder, a novel zero-shot, open-vocabulary, Large Language Model (LLM)-based 3D visual grounding pipeline. LLM-Grounder utilizes an LLM to decompose complex natural language queries into semantic constituents and employs a visual grounding tool, such as OpenScene or LERF, to identify objects in a 3D scene. The LLM then evaluates the spatial and commonsense relations among the proposed objects to make a final grounding decision. Our method does not require any labeled training data and can generalize to novel 3D scenes and arbitrary text queries. We evaluate LLM-Grounder on the ScanRefer benchmark and demonstrate state-of-the-art zero-shot grounding accuracy. Our findings indicate that LLMs significantly improve the grounding capability, especially for complex language queries, making LLM-Grounder an effective approach for 3D vision-language tasks in robotics. Videos and interactive demos can be found on the project website https://chat-with-nerf.github.io/ .
Abstract（参考訳）: 3Dビジュアルグラウンドティングは家庭用ロボットにとって重要なスキルであり、その環境に基づいてオブジェクトをナビゲートし、操作し、質問に答えることができる。既存のアプローチはしばしばラベル付きデータに頼り、複雑な言語クエリを扱う際の制限を示すが、新しいゼロショット、オープンボキャブラリ、LLM(Large Language Model)ベースの3DビジュアルグラウンドティングパイプラインであるLLM-Grounderを提案する。 LLM-GrounderはLLMを使って複雑な自然言語クエリをセマンティックな構成要素に分解し、OpenSceneやLERFといった視覚的グラウンドツールを使って3Dシーンのオブジェクトを識別する。 LLMは、提案対象間の空間的および常識的関係を評価し、最終的な根拠決定を行う。本手法はラベル付きトレーニングデータを必要とせず,新たな3dシーンや任意のテキストクエリに一般化することができる。我々は、ScanReferベンチマーク上でLLM-Grounderを評価し、最先端のゼロショットグラウンド精度を示す。以上の結果から,ロボット工学における3次元視覚言語タスクにおけるLLM-Grounderの有効性が示唆された。ビデオとインタラクティブなデモはプロジェクトのWebサイトhttps://chat-with-nerf.github.io/で見ることができる。

関連論文リスト

A Neural Representation Framework with LLM-Driven Spatial Reasoning for Open-Vocabulary 3D Visual Grounding [78.99798110890157]
Open-vocabulary 3D visual groundingは、自由形式の言語クエリに基づいてターゲットオブジェクトをローカライズすることを目的としている。既存の言語フィールド手法は、言語クエリにおける空間的関係を利用してインスタンスを正確にローカライズするのに苦労する。本研究では,大規模言語モデル(LLM)に基づく空間推論を用いたニューラル表現に基づく新しいフレームワークであるSpatialReasonerを提案する。
論文参考訳（メタデータ） (2025-07-09T10:20:38Z)
ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning [68.4209681278336]
Open-vocabulary 3D visual grounding and reasoningは、暗黙の言語記述に基づくシーン内のオブジェクトのローカライズを目的としている。現在の方法は、3Dアノテーションとマスクの提案による微調整に大きく依存しているため、苦労している。適応グルーピングのための階層型3次元特徴ガウス場を用いたLVLM誘導フレームワークであるReasonGrounderを提案する。
論文参考訳（メタデータ） (2025-03-30T03:40:35Z)
3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding [0.5755004576310334]
3Dシーングラフはコンパクトなシーンモデルを表し、オブジェクトに関する情報とそれらの間のセマンティックな関係を格納する。本研究では,3Dシーングラフの学習可能な表現を構築するための3DGraphLLMを提案する。学習可能な表現は、3次元視覚言語タスクの実行にLLMの入力として使用される。
論文参考訳（メタデータ） (2024-12-24T14:21:58Z)
LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models [62.85566496673856]
この研究は、テキストで事前訓練された大規模言語モデル(LLM)の機能を拡張して、統一モデル内で3Dメッシュを生成することを検討する。主な課題は、3DメッシュデータをLLMがシームレスに処理できる離散トークンに効果的にトークン化することだ。我々の研究は、LLMがテキストベースのフォーマットで3Dメッシュ生成のための複雑な空間知識を得るために微調整できることを示す最初のものである。
論文参考訳（メタデータ） (2024-11-14T17:08:23Z)
VLM-Grounder: A VLM Agent for Zero-Shot 3D Visual Grounding [57.04804711488706]
3Dビジュアルグラウンドティングはロボットにとって不可欠であり、自然言語と3Dシーン理解を統合する必要がある。 VLM-Grounderは視覚言語モデル(VLM)を用いて2次元画像のみに基づくゼロショット3次元視覚グラウンドティングを行う新しいフレームワークである。
論文参考訳（メタデータ） (2024-10-17T17:59:55Z)
Towards Open-World Grasping with Large Vision-Language Models [5.317624228510749]
オープンワールドの把握システムは、高レベルの文脈と低レベルの物理幾何学的推論を組み合わせることができるべきである。本稿では,視覚言語モデルとセグメンテーションとグルーピング合成モデルを組み合わせたオープンワールドグルーピングパイプラインOWGを提案する。乱雑な屋内シーンデータセットを用いて,オープンエンド言語を基盤としたOWGのロバスト性を示す。
論文参考訳（メタデータ） (2024-06-26T19:42:08Z)
VP-LLM: Text-Driven 3D Volume Completion with Large Language Models through Patchification [56.211321810408194]
大規模言語モデル(LLM)はマルチモーダル理解および生成タスクにおいて大きな可能性を示している。本稿では,LLMを利用して条件付き3D補完を行うVolume Patch LLM(VP-LLM)を提案する。以上の結果から,LLMが複雑なテキスト命令を解釈し,3Dオブジェクトを理解する能力は,最先端の拡散に基づく3Dコンプリートモデルに勝るものであることが示唆された。
論文参考訳（メタデータ） (2024-06-08T18:17:09Z)
Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文参考訳（メタデータ） (2024-05-16T18:03:41Z)
When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。 3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文参考訳（メタデータ） (2024-05-16T16:59:58Z)
LERF: Language Embedded Radiance Fields [35.925752853115476]
Language Embedded Radiance Fields (LERF) は、CLIPのような市販のモデルからNeRFへの言語埋め込みを基盤とする手法である。 LERFは、トレーニング線に沿ってCLIP埋め込みをボリュームレンダリングすることで、NeRF内の密集したマルチスケール言語フィールドを学習する。最適化後、LERFは広範囲の言語プロンプトに対してリアルタイムに3D関連性マップを抽出できる。
論文参考訳（メタデータ） (2023-03-16T17:59:20Z)
Open-vocabulary Queryable Scene Representations for Real World Planning [56.175724306976505]
大規模言語モデル(LLM)は、ヒューマンインストラクションからタスクプランニングの新しい機能を解放した。しかし、LLMを現実世界のロボットタスクに適用しようとする以前の試みは、周囲のシーンでの接地不足によって制限されている。我々は,この問題を解決するために,オープンな語彙とクエリ可能なシーン表現であるNLMapを開発した。
論文参考訳（メタデータ） (2022-09-20T17:29:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。