論文の概要: Plant in Cupboard, Orange on Rably, Inat Aphone. Benchmarking Incremental Learning of Situation and Language Model using a Text-Simulated Situated Environment
- arxiv url: http://arxiv.org/abs/2502.11733v2
- Date: Tue, 20 May 2025 11:43:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:51.798985
- Title: Plant in Cupboard, Orange on Rably, Inat Aphone. Benchmarking Incremental Learning of Situation and Language Model using a Text-Simulated Situated Environment
- Title(参考訳): テキストシミュレーションによる状況・言語モデルの逐次学習
- Authors: Jonathan Jordan, Sherzod Hakimov, David Schlangen,
- Abstract要約: 大きな言語モデル(LLM)はエージェントシステムのキーコンポーネントとして機能し、それらの常識的な知識は、位置や具現化されたアクションのための言語ベースのプランナーとしての性能に大きく影響する。
LLMのインクリメンタル学習(環境からのフィードバックに基づく)を評価し,テキストベースの環境を用いてコンテキスト内学習能力を制御する。
その結果、より大きな商用モデルはオープンウェイトに比べて性能がかなり低いが、ほとんどのモデルは合成語実験に苦慮していることがわかった。
- 参考スコア(独自算出の注目度): 18.256529559741075
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) serve not only as chatbots but as key components in agent systems, where their common-sense knowledge significantly impacts performance as language-based planners for situated or embodied action. We assess LLMs' incremental learning (based on feedback from the environment), and controlled in-context learning abilities using a text-based environment. We introduce challenging yet interesting set of experiments to test i) how agents can incrementally solve tasks related to every day objects in typical rooms in a house where each of them are discovered by interacting within the environment, ii) controlled in-context learning abilities and efficiency of agents by providing short info about locations of objects and rooms to check how faster the task can be solved, and finally iii) using synthetic pseudo-English words to gauge how well LLMs are at inferring meaning of unknown words from environmental feedback. Results show that larger commercial models have a substantial gap in performance compared to open-weight but almost all models struggle with the synthetic words experiments.
- Abstract(参考訳): 大規模言語モデル(LLM)はチャットボットとしてだけでなく、エージェントシステムの重要なコンポーネントとして機能する。
LLMのインクリメンタル学習(環境からのフィードバックに基づく)を評価し,テキストベースの環境を用いてコンテキスト内学習能力を制御する。
挑戦的かつ興味深い実験のセットを紹介します。
一 エージェントが、それぞれが環境の中で相互作用して発見される住宅の典型的な部屋において、日常の物に関するタスクを段階的に解決する方法
二 作業の迅速さを確かめるために、対象物や部屋の位置についての短い情報を提供することにより、エージェントの文脈内学習能力及び効率を制御し、最後に、
三 環境フィードバックから未知語の意味を推測する上で、LLMがどの程度優れているかを評価するために、合成擬音語を用いること。
その結果、より大きな商用モデルはオープンウェイトに比べて性能がかなり低いが、ほとんどのモデルは合成語実験に苦慮していることがわかった。
関連論文リスト
- Language Agents Meet Causality -- Bridging LLMs and Causal World Models [50.79984529172807]
因果表現学習を大規模言語モデルと統合する枠組みを提案する。
このフレームワークは、自然言語表現に関連付けられた因果変数を持つ因果世界モデルを学ぶ。
本研究では,時間的スケールと環境の複雑さを考慮した因果推論と計画課題の枠組みを評価する。
論文 参考訳(メタデータ) (2024-10-25T18:36:37Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - Natural Language as Policies: Reasoning for Coordinate-Level Embodied Control with LLMs [7.746160514029531]
ロボットのタスク計画問題に対処するLLMによる実験結果を示す。
提案手法はタスクとシーンオブジェクトのテキスト記述を取得し,自然言語推論によるタスクプランニングを定式化する。
提案手法はマルチモーダル・プロンプト・シミュレーション・ベンチマークを用いて評価する。
論文 参考訳(メタデータ) (2024-03-20T17:58:12Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Natural Language based Context Modeling and Reasoning for Ubiquitous
Computing with Large Language Models: A Tutorial [35.743576799998564]
大規模言語モデル(LLM)は、コンテキスト対応コンピューティングを導入してから20年が経ち、2018年以来、驚くほど急増している。
本チュートリアルでは,テキスト,プロンプト,自律エージェント(AutoAgents)の使用を実演し,LLMが文脈モデリングや推論を行うことを可能にする。
論文 参考訳(メタデータ) (2023-09-24T00:15:39Z) - A Picture is Worth a Thousand Words: Language Models Plan from Pixels [53.85753597586226]
計画は, 実環境下で長時間の作業を行う人工エージェントの重要な機能である。
本研究では,事前学習型言語モデル(PLM)を用いて,具体的視覚環境におけるテキスト命令からのプランシーケンスを推論する。
論文 参考訳(メタデータ) (2023-03-16T02:02:18Z) - Inner Monologue: Embodied Reasoning through Planning with Language
Models [81.07216635735571]
大規模言語モデル(LLM)は自然言語処理以外の領域に適用できる。
具体化された環境でのLLMの計画には、何をすべきかだけでなく、どのように、いつ行うべきかを考える必要がある。
環境フィードバックを活用することで、LLMはロボット制御シナリオにおいてよりリッチな処理と計画を行うことができる内部モノローグを形成することができる。
論文 参考訳(メタデータ) (2022-07-12T15:20:48Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。