Fugu-MT 論文翻訳(概要): Visual Agentic AI for Spatial Reasoning with a Dynamic API

論文の概要: Visual Agentic AI for Spatial Reasoning with a Dynamic API

arxiv url: http://arxiv.org/abs/2502.06787v1
Date: Mon, 10 Feb 2025 18:59:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:51.741141
Title: Visual Agentic AI for Spatial Reasoning with a Dynamic API
Title（参考訳）: 動的APIを用いた空間推論のための視覚エージェントAI
Authors: Damiano Marsili, Rohun Agrawal, Yisong Yue, Georgia Gkioxari,
Abstract要約: 本稿では,3次元空間推論問題を解くためのエージェントプログラム合成手法を提案する。我々の手法は、静的なヒューマン定義APIに依存する従来のアプローチの限界を克服する。本手法は3次元の視覚的推論において,従来のゼロショットモデルよりも優れていることを示す。
参考スコア（独自算出の注目度）: 26.759236329608935
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Visual reasoning -- the ability to interpret the visual world -- is crucial for embodied agents that operate within three-dimensional scenes. Progress in AI has led to vision and language models capable of answering questions from images. However, their performance declines when tasked with 3D spatial reasoning. To tackle the complexity of such reasoning problems, we introduce an agentic program synthesis approach where LLM agents collaboratively generate a Pythonic API with new functions to solve common subproblems. Our method overcomes limitations of prior approaches that rely on a static, human-defined API, allowing it to handle a wider range of queries. To assess AI capabilities for 3D understanding, we introduce a new benchmark of queries involving multiple steps of grounding and inference. We show that our method outperforms prior zero-shot models for visual reasoning in 3D and empirically validate the effectiveness of our agentic framework for 3D spatial reasoning tasks. Project website: https://glab-caltech.github.io/vadar/
Abstract（参考訳）: 視覚的推論(ビジュアルワールドを解釈する能力)は、3次元のシーンで機能するエンボディエージェントにとって不可欠である。 AIの進歩は、画像からの質問に答えることのできるビジョンと言語モデルにつながった。しかし,3次元空間推論を行うと,その性能は低下する。このような推論問題の複雑さに対処するために,LLMエージェントがPythonのAPIを協調して生成し,共通のサブプロブレムを解くエージェントプログラム合成手法を提案する。提案手法は,静的な人間定義APIに依存する従来のアプローチの限界を克服し,より広い範囲のクエリを処理可能にする。 3次元理解のためのAI機能を評価するために、グラウンドと推論の複数のステップを含むクエリの新しいベンチマークを導入する。提案手法は3次元空間推論における従来のゼロショットモデルよりも優れており、3次元空間推論におけるエージェント・フレームワークの有効性を実証的に検証している。プロジェクトサイト: https://glab-caltech.github.io/vadar/

関連論文リスト

HIS-GPT: Towards 3D Human-In-Scene Multimodal Understanding [57.763735969891286]
具体的エージェントに対するヒューマン・イン・シーン・サーチ・アンサーリング(HIS-QA)のためのヒューマン・イン・シーン・理解のベンチマークのための新しいタスクを提案する。 HIS-QAは、エージェントが人間の状態や行動を理解し、周囲の環境を判断し、シーン内の人間関連の質問に答えることを要求する。広帯域でのHIS理解を体系的に評価するマルチモーダル・ベンチマークであるHIS-Benchを提案する。
論文参考訳（メタデータ） (2025-03-17T09:10:50Z)
3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds [81.14476072159049]
3D Affordance Detectionは、様々なロボットタスクの幅広い応用において難しい問題である。我々は従来の割当検出パラダイムをテキスト推論改善(IRAS)タスクに再構成する。本研究では,3次元オープンシーンにおけるアベイランス検出のためのフレームワークである3D-ADLLMを提案する。
論文参考訳（メタデータ） (2025-02-27T12:29:44Z)
3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding [0.5755004576310334]
3Dシーングラフは、存在しているオブジェクトとそれらの間の意味的関係の両方をキャプチャすることで、コンパクトなシーンモデルを表現する。本研究では,意味関係を明示的に組み込んだ3Dシーングラフの学習可能な表現構築手法である3DGraphLLMを提案する。
論文参考訳（メタデータ） (2024-12-24T14:21:58Z)
LLMI3D: Empowering LLM with 3D Perception from a Single 2D Image [72.14973729674995]
現在の3D認識手法、特に小さなモデルでは、論理的推論、質問応答、オープンシナリオカテゴリの処理に苦労している。空間的特徴抽出のための空間的局所特徴抽出法,精密な幾何回帰のための3次元問合せ情報復号法,カメラ焦点長変動に対する幾何学投影に基づく3次元推論を提案する。
論文参考訳（メタデータ） (2024-08-14T10:00:16Z)
Beyond Bare Queries: Open-Vocabulary Object Grounding with 3D Scene Graph [0.3926357402982764]
本稿では,メカニカルエッジとセマンティックエッジを用いた3次元シーングラフ表現を構築するBBQというモジュラーアプローチを提案する。 BBQは、3Dオブジェクト中心のマップを構築するために、堅牢なDINO対応のアソシエーションを使用している。 BBQは,他のゼロショット法と比較して,オープンな3次元セマンティックセマンティックセマンティックセグメンテーションにおいて中心的な役割を担っていることを示す。
論文参考訳（メタデータ） (2024-06-11T09:57:04Z)
OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクの整合性を高めるための総合的枠組みを提案する。我々のフレームワークは、スパースクエリを使って視覚表現を3Dに上げ、圧縮する新しい3DMLLMアーキテクチャから始まります。 OmniDrive-nuScenesは、モデルの真の3次元状況認識に挑戦する新しい視覚的質問応答データセットである。
論文参考訳（メタデータ） (2024-05-02T17:59:24Z)
Transcrib3D: 3D Referring Expression Resolution through Large Language Models [28.121606686759225]
本稿では,3次元検出手法と大規模言語モデルの創発的推論機能を組み合わせたアプローチであるTranscrib3Dを紹介する。 Transcrib3Dは3D参照解像度ベンチマークで最先端の結果を得る。提案手法は,提案手法を用いて,参照表現の難易度を含むクエリに対して,実際のロボットがピック・アンド・プレイス・タスクを実行できることを示す。
論文参考訳（メタデータ） (2024-04-30T02:48:20Z)
Think-Program-reCtify: 3D Situated Reasoning with Large Language Models [68.52240087262825]
本研究は,3次元環境における自我中心の観察から得られる質問に答えることを目的とした3次元位置推論課題に対処する。我々は,ThinkProgram-reCtifyループを通じて,大規模言語モデル(LLM)の計画,ツール使用,リフレクション機能を活用する新しいフレームワークを提案する。 SQA3Dベンチマークの実験と解析により,本手法の有効性,解釈可能性,ロバスト性を実証した。
論文参考訳（メタデータ） (2024-04-23T03:22:06Z)
Probing the 3D Awareness of Visual Foundation Models [56.68380136809413]
視覚基礎モデルの3次元認識を解析する。凍結した特徴に対するタスク固有プローブとゼロショット推論手法を用いて実験を行う。
論文参考訳（メタデータ） (2024-04-12T17:58:04Z)
ScanERU: Interactive 3D Visual Grounding based on Embodied Reference Understanding [67.21613160846299]
Embodied Reference Understanding (ERU) はこの懸念に対して最初に設計されている。 ScanERUと呼ばれる新しいデータセットは、このアイデアの有効性を評価するために構築されている。
論文参考訳（メタデータ） (2023-03-23T11:36:14Z)
3D_DEN: Open-ended 3D Object Recognition using Dynamically Expandable Networks [0.0]
本研究では,新しい3Dオブジェクトカテゴリをオープンエンドで学習できるロボットを実現するために,動的アーキテクチャに基づく新しい深層移動学習手法を提案する。実験結果から,提案手法は精度に優れ,計算オーバーヘッドを大幅に最小化できることがわかった。
論文参考訳（メタデータ） (2020-09-15T16:44:18Z)
Improving Target-driven Visual Navigation with Attention on 3D Spatial Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。 AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2020-04-29T08:46:38Z)
CRAVES: Controlling Robotic Arm with a Vision-based Economic System [96.56564257199474]
現実のタスクを達成するためにロボットアームを訓練することは、アカデミックと産業の両方で注目を集めている。本研究は,この分野におけるコンピュータビジョンアルゴリズムの役割について論じる。本稿では,3次元モデルを用いて大量の合成データを生成する方法を提案する。
論文参考訳（メタデータ） (2018-12-03T13:28:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。