論文の概要: How well can LLMs provide planning feedback in grounded environments?
- arxiv url: http://arxiv.org/abs/2509.09790v1
- Date: Thu, 11 Sep 2025 18:51:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.894183
- Title: How well can LLMs provide planning feedback in grounded environments?
- Title(参考訳): LLMは、地上環境におけるプランニングフィードバックをどの程度うまく提供できますか?
- Authors: Yuxuan Li, Victor Zhong,
- Abstract要約: 我々は,大規模言語モデル (LLM) と視覚言語モデル (VLM) が,記号的,言語的,連続的な制御環境にまたがるフィードバックをいかによく提供するかを評価する。
ファンデーションモデルは、ドメイン間でさまざまな高品質なフィードバックを提供することができる。
- 参考スコア(独自算出の注目度): 15.7862099978004
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Learning to plan in grounded environments typically requires carefully designed reward functions or high-quality annotated demonstrations. Recent works show that pretrained foundation models, such as large language models (LLMs) and vision language models (VLMs), capture background knowledge helpful for planning, which reduces the amount of reward design and demonstrations needed for policy learning. We evaluate how well LLMs and VLMs provide feedback across symbolic, language, and continuous control environments. We consider prominent types of feedback for planning including binary feedback, preference feedback, action advising, goal advising, and delta action feedback. We also consider inference methods that impact feedback performance, including in-context learning, chain-of-thought, and access to environment dynamics. We find that foundation models can provide diverse high-quality feedback across domains. Moreover, larger and reasoning models consistently provide more accurate feedback, exhibit less bias, and benefit more from enhanced inference methods. Finally, feedback quality degrades for environments with complex dynamics or continuous state spaces and action spaces.
- Abstract(参考訳): 接地環境で計画することを学ぶには、通常、慎重に設計された報酬関数や高品質な注釈付きデモンストレーションが必要である。
近年の研究では、大規模言語モデル(LLM)やビジョン言語モデル(VLM)といった事前訓練された基礎モデルが、計画に有用な背景知識を捉え、政策学習に必要な報酬設計や実演の量を減らすことが示されている。
我々は,LLM と VLM が,記号的,言語的,連続的な制御環境にまたがるフィードバックをいかに効果的に提供するかを評価する。
我々は、二元的フィードバック、優先的フィードバック、行動アドバイス、ゴールアドバイス、デルタ行動フィードバックなど、計画のための顕著なフィードバックについて検討する。
また、文脈内学習、思考の連鎖、環境ダイナミクスへのアクセスなど、フィードバックのパフォーマンスに影響を与える推論手法についても検討する。
ファンデーションモデルは、ドメイン間でさまざまな高品質なフィードバックを提供することができる。
さらに、より大きな推論モデルは、常により正確なフィードバックを提供し、バイアスを減らし、推論方法の強化の恩恵を受ける。
最後に、複雑な動的環境や連続的な状態空間やアクション空間を持つ環境では、フィードバックの品質が低下する。
関連論文リスト
- Learning from Natural Language Feedback for Personalized Question Answering [21.115495457454365]
パーソナライゼーションは、言語技術の有効性とユーザ満足度を高めるために不可欠である。
大規模言語モデル(LLM)をパーソナライズするための現在のアプローチは、しばしば検索強化世代(RAG)に依存している。
我々は、スカラー報酬を自然言語フィードバック(NLF)に置き換える、パーソナライズされた応答生成のための新しいフレームワークであるVacを紹介する。
論文 参考訳(メタデータ) (2025-08-14T14:36:53Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Learning Latent Dynamic Robust Representations for World Models [9.806852421730165]
Visual Model-Based Reinforcement Learning (MBL)は、環境の基盤となるダイナミクスに関する知識をエージェントに伝えることを約束する。
ドリーマーのような時空エージェントは、観測空間に無関係なノイズが存在する場合、しばしば視覚的なピクセルベースの入力に苦しむ。
本研究では,世界モデルにおけるタスク固有の環境の内在的側面を捉えるために,アテンポ的マスキング戦略と潜在的再構築を併用して適用する。
論文 参考訳(メタデータ) (2024-05-10T06:28:42Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - System-Level Natural Language Feedback [83.24259100437965]
システムレベルの設計決定を人為的なループプロセスで形式化する上で,フィードバックの活用方法を示す。
検索クエリと対話応答生成を改善するために,本手法のケーススタディを2つ実施する。
システムレベルのフィードバックとインスタンスレベルのフィードバックの組み合わせは、さらなる利益をもたらします。
論文 参考訳(メタデータ) (2023-06-23T16:21:40Z) - Improving Policy Learning via Language Dynamics Distillation [87.27583619910338]
本稿では,言語記述による実演を前提とした環境動態予測モデルであるLanguage Dynamics Distillation(LDD)を提案する。
実演における言語記述は,環境全体にわたるサンプル効率と一般化を改善することを示す。
論文 参考訳(メタデータ) (2022-09-30T19:56:04Z) - Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。
VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。
本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文 参考訳(メタデータ) (2019-11-17T18:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。