論文の概要: LLMs for Text-Based Exploration and Navigation Under Partial Observability
- arxiv url: http://arxiv.org/abs/2604.09604v1
- Date: Tue, 10 Mar 2026 10:38:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.544697
- Title: LLMs for Text-Based Exploration and Navigation Under Partial Observability
- Title(参考訳): 部分観測可能性下におけるテキストベース探索とナビゲーションのためのLLM
- Authors: Stephan Sandfuchs, Maximilian Melchert, Jörg Frochte,
- Abstract要約: 未知のレイアウトでの探索と目標指向ナビゲーションは、検査、ロジスティクス、検索と救助の中心である。
我々は,大言語モデル (LLM) が部分的可観測性の下で,Emphtextのみのコントローラとして機能するかどうかを問う。
- 参考スコア(独自算出の注目度): 0.8478633389228728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration and goal-directed navigation in unknown layouts are central to inspection, logistics, and search-and-rescue. We ask whether large language models (LLMs) can function as \emph{text-only} controllers under partial observability -- without code execution, tools, or program synthesis. We introduce a reproducible benchmark with oracle localisation in fixed ASCII gridworlds: each step reveals only a local $5\times5$ window around the agent and the model must select one of \texttt{UP/RIGHT/DOWN/LEFT}. Nine contemporary LLMs ranging from open/proprietary, dense / Mixture of Experts and instruction- vs. reasoning-tuned are evaluated on two tasks across three layouts of increasing difficulty: \emph{Exploration} (maximising revealed cells) and \emph{Navigation} (reach the goal on the shortest path). The experimental results are evaluated on quantitative metrics including \emph{success rate}, \emph{efficiency} such as normalised coverage and \emph{path length} vs. oracle as well as qualitative analysis. Reasoning-tuned models reliably complete navigation across all layouts, yet remain less efficient than oracle paths. Few-shot demonstrations in the prompt chiefly help these Reasoning-tuned models by reducing invalid moves and shortening paths, while classic dense instruction models remain inconsistent. We observe characteristic action priors (UP/RIGHT) that can induce looping under partial observability. Overall, training regimen and test-time deliberation predict control ability better than raw parameter count. These findings suggest lightweight hybridisation with classical online planners as a practical route to deployable partial map systems.
- Abstract(参考訳): 未知のレイアウトでの探索と目標指向ナビゲーションは、検査、ロジスティクス、検索と救助の中心である。
大規模な言語モデル(LLM)が部分的な可観測性の下で、コード実行、ツール、プログラム合成なしで、emph{text-only}コントローラとして機能するかどうかを問う。
固定されたASCIIグリッドワールドにおけるオラクルローカライゼーションを用いた再現可能なベンチマークを導入する。各ステップはエージェントの周囲のローカルな$5\times5$ウィンドウのみを公開し、モデルが \texttt{UP/RIGHT/DOWN/LEFT} のいずれかを選択する必要がある。
オープン/プロプライエタリ、密集/エキスパートの混合、命令と推論の調整を含む9つの現代のLCMを、困難を増す3つのレイアウトで評価した: \emph{Exploration} (明らかに細胞を最大化する)と \emph{Navigation} (最短経路のゴールを達成)。
実験結果は,正常化カバレッジやoracleに対するemph{path length},定性解析など,<emph{success rate}, \emph{efficiency}などの定量値を用いて評価した。
推論チューニングされたモデルは、すべてのレイアウトにわたって確実にナビゲーションを完了しますが、オラクルパスよりも効率は低いままです。
インプロンプトでのいくつかのデモは、不適切な動きを減らし、パスを短縮することで、これらの推論チューニングモデルに主に役立つが、古典的な高密度な命令モデルは相容れないままである。
部分的な観測可能性の下でループを誘導できる特徴的行動先行(UP/RIGHT)を観察する。
全体として、トレーニングレギュレンとテストタイムの熟考は、生パラメータ数よりも優れた制御能力を予測している。
これらの結果は、従来のオンラインプランナーとの軽量なハイブリッド化を、デプロイ可能な部分マップシステムへの実践的な経路として示唆している。
関連論文リスト
- DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding [63.257540233507626]
本稿では、構造化解析、局所化、推論のワークフローを実行するためにモデルを必要とするパラダイムを提案する。
ショートページトレーニングから超長文書への堅牢な一般化を示し、視覚的検索・拡張生成システムと自然に相乗効果を示す。
論文 参考訳(メタデータ) (2026-04-14T14:39:26Z) - ReLope: KL-Regularized LoRA Probes for Multimodal LLM Routing [5.106806600400179]
本稿では,大規模言語モデル(LLM)システムにおけるプローブルーティングを改善するための2つの補完的アプローチを提案する。
まず,アテンションスコアに基づいて先行層から隠れた状態を集約し,分散正当性信号の復元を行うemphAttention Probeを提案する。
第二に、emphKL-Regularized LoRA Probe(ReLope)という軽量なLoRAアダプタを挿入し、KL正規化器を適用してルーティング対応表現を学習する。
論文 参考訳(メタデータ) (2026-03-25T20:00:57Z) - ReasonNavi: Human-Inspired Global Map Reasoning for Zero-Shot Embodied Navigation [53.95797153529148]
身体的エージェントは、主に部分的な自我中心の観測に依存するため、効率的なナビゲーションに苦しむことが多い。
本稿では,マルチモーダル大規模言語モデル(MLLM)と決定論的プランナを結合することにより,この理由に基づくパラダイムを運用する,人間にインスパイアされたフレームワークであるReasonNaviを紹介する。
論文 参考訳(メタデータ) (2026-01-26T19:09:20Z) - In-Context Operator Learning on the Space of Probability Measures [11.178575236157961]
最適輸送のための確率測度空間上でのemphin-context演算子学習を提案する。
解演算子をパラメタライズし、スケーリング法理論を2つのシステマで開発する。
合成輸送および生成モデルベンチマークに関する数値実験により,その枠組みが検証された。
論文 参考訳(メタデータ) (2026-01-15T01:44:10Z) - Follow the Signs: Using Textual Cues and LLMs to Guide Efficient Robot Navigation [8.782169490089673]
本稿では,部分的な観測からパターンを推測し,目標が最も近い地域を予測できる新しい意味ナビゲーションフレームワークを提案する。
本手法は,局所的な知覚入力とフロンティアに基づく探索と周期的LLMクエリを組み合わせる。
本手法により,シンボルパターンを活用することにより,疎外かつ部分的に観測可能なグリッド環境において,より効率的なナビゲーションを可能にすることが実証された。
論文 参考訳(メタデータ) (2026-01-10T18:47:25Z) - LLM-First Search: Self-Guided Exploration of the Solution Space [29.780554400938335]
大規模言語モデル(LLM)は、テスト時間計算の増加による推論と計画の大幅な改善を示している。
我々は,新しいTextitLLM Self-Guided Search法である textbfLLM-First Search (LFS) を提案する。
論文 参考訳(メタデータ) (2025-06-05T16:27:49Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Learning to Predict Navigational Patterns from Partial Observations [63.04492958425066]
本稿では,実環境におけるナビゲーションのパターンを,部分的な観察のみから推測する,初めての自己教師型学習(SSL)手法を提案する。
我々は、DSLPフィールドに最大極大グラフを適合させることにより、グローバルなナビゲーションパターンを推論する方法を実証する。
実験により,我々のSSLモデルはnuScenesデータセット上で2つのSOTA教師付きレーングラフ予測モデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-04-26T02:08:46Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。