Fugu-MT 論文翻訳(概要): Dynamic Path Navigation for Motion Agents with LLM Reasoning

論文の概要: Dynamic Path Navigation for Motion Agents with LLM Reasoning

arxiv url: http://arxiv.org/abs/2503.07323v1
Date: Mon, 10 Mar 2025 13:39:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:44.925839
Title: Dynamic Path Navigation for Motion Agents with LLM Reasoning
Title（参考訳）: LLM推論を用いた運動エージェントの動的経路ナビゲーション
Authors: Yubo Zhao, Qi Wu, Yifan Wang, Yu-Wing Tai, Chi-Keung Tang,
Abstract要約: 大規模言語モデル(LLM)は、強力な一般化可能な推論と計画能力を示している。本研究では,LLMのゼロショットナビゲーションと経路生成機能について,データセットの構築と評価プロトコルの提案により検討する。このようなタスクが適切に構成されている場合、現代のLCMは、目標に到達するために生成された動きでナビゲーションを自律的に精錬しながら障害を回避するためのかなりの計画能力を示す。
参考スコア（独自算出の注目度）: 69.5875073447454
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have demonstrated strong generalizable reasoning and planning capabilities. However, their efficacies in spatial path planning and obstacle-free trajectory generation remain underexplored. Leveraging LLMs for navigation holds significant potential, given LLMs' ability to handle unseen scenarios, support user-agent interactions, and provide global control across complex systems, making them well-suited for agentic planning and humanoid motion generation. As one of the first studies in this domain, we explore the zero-shot navigation and path generation capabilities of LLMs by constructing a dataset and proposing an evaluation protocol. Specifically, we represent paths using anchor points connected by straight lines, enabling movement in various directions. This approach offers greater flexibility and practicality compared to previous methods while remaining simple and intuitive for LLMs. We demonstrate that, when tasks are well-structured in this manner, modern LLMs exhibit substantial planning proficiency in avoiding obstacles while autonomously refining navigation with the generated motion to reach the target. Further, this spatial reasoning ability of a single LLM motion agent interacting in a static environment can be seamlessly generalized in multi-motion agents coordination in dynamic environments. Unlike traditional approaches that rely on single-step planning or local policies, our training-free LLM-based method enables global, dynamic, closed-loop planning, and autonomously resolving collision issues.
Abstract（参考訳）: 大規模言語モデル(LLM)は、強力な一般化可能な推論と計画能力を示している。しかし、空間経路計画や障害物のない軌道生成におけるそれらの効果はいまだ未解明のままである。 LLMをナビゲーションに活用することは、未確認のシナリオを処理し、ユーザエージェントのインタラクションをサポートし、複雑なシステム全体にわたってグローバルな制御を提供し、エージェント計画やヒューマノイドモーション生成に適するように、大きな可能性を秘めている。この領域における最初の研究の1つとして、データセットの構築と評価プロトコルの提案により、LCMのゼロショットナビゲーションとパス生成能力について検討する。具体的には、直線で接続されたアンカーポイントを用いて経路を表現し、様々な方向に移動できるようにする。このアプローチは、LCMに対して単純で直感的なままで、従来の方法よりも柔軟性と実用性が高い。このようなタスクが適切に構成されている場合、現代のLCMは、目標に到達するために生成された動きでナビゲーションを自律的に精錬しながら障害を回避するためのかなりの計画能力を示す。さらに、静的環境で相互作用する単一のLDM動作エージェントのこの空間的推論能力は、動的環境におけるマルチモーションエージェント協調においてシームレスに一般化することができる。シングルステップ計画やローカルポリシーに依存する従来のアプローチとは異なり、トレーニングフリーのLCMベースの手法は、グローバルでダイナミックでクローズドループ計画を可能にし、衝突問題を自律的に解決する。

関連論文リスト

AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation [13.973823761671673]
AirHuntは、屋外環境でゼロショットの一般化を伴うオープンセットオブジェクトを効率的に検出する、空中オブジェクトナビゲーションシステムである。 AirHuntは、VLMセマンティック推論とパス計画の相乗的インターフェースを確立する、デュアルパスの非同期アーキテクチャを備えている。多様なオブジェクトナビゲーションタスクや環境にまたがってAirHuntを評価し,ナビゲーションエラーの低減と飛行時間短縮を図った。
論文参考訳（メタデータ） (2026-01-19T05:50:03Z)
GeoMotionGPT: Geometry-Aligned Motion Understanding with Large Language Models [23.159388800893964]
両モジュラリティが統一幾何基底を共有する場合、アライメントが最も効果的であると主張する。我々は、Gumbel-Softmaxを用いたデコーダのみの量子化器を用いて、微分可能なトレーニングとバランスの取れたコードブックの使用について検討する。我々のフレームワークは現在の最先端手法よりも20%の性能向上を実現している。
論文参考訳（メタデータ） (2026-01-12T15:14:29Z)
Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文参考訳（メタデータ） (2025-11-06T22:24:35Z)
Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。 ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文参考訳（メタデータ） (2025-10-11T18:11:09Z)
OmniBridge: Unified Multimodal Understanding, Generation, and Retrieval via Latent Space Alignment [79.98946571424607]
我々は,統一アーキテクチャ内での視覚言語理解,生成,検索をサポートする統一フレームワークであるOmniBridgeを提案する。タスク干渉の課題に対処するために,2段階の非結合型トレーニング戦略を提案する。実験によると、OmniBridgeは3つのタスクすべてで、競争力や最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-09-23T13:57:55Z)
RALLY: Role-Adaptive LLM-Driven Yoked Navigation for Agentic UAV Swarms [15.891423894740045]
役割適応型LCM駆動ヨードナビゲーションアルゴリズムをアラリカルに開発する。 RALLYは構造化自然言語を用いて効率的な意味コミュニケーションと協調推論を行う。実験の結果, タスクカバレッジ, 収束速度, 一般化の点で, 従来手法よりも有意な性能を示した。
論文参考訳（メタデータ） (2025-07-02T05:44:17Z)
Enhancing Large Language Models for Mobility Analytics with Semantic Location Tokenization [29.17336622418242]
移動分析のための大規模言語モデル(LLM)を大幅に強化する新しいフレームワークであるQT-Mobを提案する。 QT-Mobは、場所を表すためにコンパクトでセマンティックにリッチなトークンを学ぶ、ロケーショントークン化モジュールを導入した。 3つの実世界のデータセットの実験は、次の位置予測とモビリティ回復タスクの両方において優れた性能を示す。
論文参考訳（メタデータ） (2025-06-08T02:17:50Z)
Exploring the Roles of Large Language Models in Reshaping Transportation Systems: A Survey, Framework, and Roadmap [51.198001060683296]
大型言語モデル(LLM)は、輸送上の課題に対処するための変革的な可能性を提供する。 LLM4TRは,交通におけるLSMの役割を体系的に分類する概念的枠組みである。それぞれの役割について,交通予測や自律運転,安全分析,都市移動最適化など,さまざまな応用について検討した。
論文参考訳（メタデータ） (2025-03-27T11:56:27Z)
EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文参考訳（メタデータ） (2025-03-14T05:06:07Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Multi-Agent Path Finding in Continuous Spaces with Projected Diffusion Models [57.45019514036948]
MAPF(Multi-Agent Path Finding)は、ロボット工学における基本的な問題である。連続空間におけるMAPFの拡散モデルと制約付き最適化を統合する新しい手法を提案する。
論文参考訳（メタデータ） (2024-12-23T21:27:19Z)
MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文参考訳（メタデータ） (2024-11-26T17:53:44Z)
DynaSaur: Large Language Agents Beyond Predefined Actions [108.75187263724838]
既存のLLMエージェントシステムは、通常、各ステップで固定セットと事前定義されたセットからアクションを選択する。動作を動的に生成・構成できるLLMエージェントフレームワークを提案する。このフレームワークでは、汎用プログラミング言語で書かれたプログラムを生成し実行することで、エージェントが環境と対話する。
論文参考訳（メタデータ） (2024-11-04T02:08:59Z)
LLM3:Large Language Model-based Task and Motion Planning with Motion Failure Reasoning [78.2390460278551]
従来のタスク・アンド・モーション・プランニング(TAMP)アプローチは、シンボル的タスク・プランニングと連続的なモーション・ジェネレーションを結びつける手作業によるインタフェースに依存している。本稿では,ドメインに依存しないインターフェースを備えたLarge Language Model (LLM) ベースの TAMP フレームワーク LLM3 を提案する。具体的には、事前学習したLLMの強力な推論と計画能力を活用して、シンボル的なアクションシーケンスを提案し、動作計画のための連続的なアクションパラメータを選択する。
論文参考訳（メタデータ） (2024-03-18T08:03:47Z)
LgTS: Dynamic Task Sampling using LLM-generated sub-goals for Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文参考訳（メタデータ） (2023-10-14T00:07:03Z)
LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文参考訳（メタデータ） (2023-10-04T17:59:49Z)
CARL: Controllable Agent with Reinforcement Learning for Quadruped Locomotion [0.0]
CARLは、高レベルの指示で制御でき、動的環境に自然に反応できる4重結合剤である。我々は、ジェネレーティブ・アドリラル・ネットワークを使用して、速度や方向などのハイレベルな制御を、オリジナルのアニメーションに対応するアクション・ディストリビューションに適応させる。深部強化学習によるさらなる微調整により、エージェントは、スムーズな遷移を発生させながら、目に見えない外部摂動から回復することができる。
論文参考訳（メタデータ） (2020-05-07T07:18:57Z)
Learning to Move with Affordance Maps [57.198806691838364]
物理的な空間を自律的に探索し、ナビゲートする能力は、事実上あらゆる移動型自律エージェントの基本的な要件である。従来のSLAMベースの探索とナビゲーションのアプローチは、主にシーン幾何学の活用に重点を置いている。学習可能な余剰マップは探索と航法の両方において従来のアプローチの強化に利用でき、性能が大幅に向上することを示します。
論文参考訳（メタデータ） (2020-01-08T04:05:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。