Fugu-MT 論文翻訳(概要): Enhancing Agent Learning through World Dynamics Modeling

論文の概要: Enhancing Agent Learning through World Dynamics Modeling

arxiv url: http://arxiv.org/abs/2407.17695v2
Date: Tue, 15 Oct 2024 15:48:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 15:12:19.848382
Title: Enhancing Agent Learning through World Dynamics Modeling
Title（参考訳）: 世界ダイナミクスモデリングによるエージェント学習の強化
Authors: Zhiyuan Sun, Haochen Shi, Marc-Alexandre Côté, Glen Berseth, Xingdi Yuan, Bang Liu,
Abstract要約: 少数のデモから世界ダイナミクスを発見するためのフレームワークであるDiVEを紹介する。我々は,各コンポーネントが性能に与える影響を評価し,DiVEが生成するダイナミクスと人為的アノテーションのダイナミクスを比較した。以上の結果から,DiVE が指導する LLM は,クラフト環境における人間プレイヤーに匹敵する報酬を得られる,より情報的な決定を下すことが示唆された。
参考スコア（独自算出の注目度）: 40.97719122108189
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have been increasingly applied to tasks in language understanding and interactive decision-making, with their impressive performance largely attributed to the extensive domain knowledge embedded within them. However, the depth and breadth of this knowledge can vary across domains. Many existing approaches assume that LLMs possess a comprehensive understanding of their environment, often overlooking potential gaps in their grasp of actual world dynamics. To address this, we introduce Discover, Verify, and Evolve (DiVE), a framework that discovers world dynamics from a small number of demonstrations, verifies the accuracy of these dynamics, and evolves new, advanced dynamics tailored to the current situation. Through extensive evaluations, we assess the impact of each component on performance and compare the dynamics generated by DiVE to human-annotated dynamics. Our results show that LLMs guided by DiVE make more informed decisions, achieving rewards comparable to human players in the Crafter environment and surpassing methods that require prior task-specific training in the MiniHack environment.
Abstract（参考訳）: 大きな言語モデル(LLM)は、言語理解と対話的な意思決定のタスクにますます適用されてきている。しかし、この知識の深さと幅はドメインによって異なる。既存の多くのアプローチでは、LLMは環境を包括的に理解しており、しばしば現実の世界力学の把握における潜在的なギャップを見落としていると仮定している。少数のデモから世界ダイナミクスを発見し、これらのダイナミクスの精度を検証し、現在の状況に合わせて新しい高度なダイナミクスを進化させるフレームワークであるDiscover, Verify, and Evolve(DiVE)を紹介する。広範囲な評価を通じて、各コンポーネントが性能に与える影響を評価し、DiVEが生成するダイナミクスと人間のアノテーションによるダイナミクスを比較した。以上の結果から,DiVE が指導する LLM は,クラフト環境における人間プレイヤーに匹敵する報奨を達成し,MiniHack 環境におけるタスク固有の事前訓練を必要とする手法を超越した,より情報的な決定を下すことが示唆された。

関連論文リスト

VLM4D: Towards Spatiotemporal Awareness in Vision Language Models [66.833085504228]
V4DLMは視覚言語モデル(VLM)を評価するために設計された最初のベンチマークである。本ベンチマークは,質問応答対を慎重にキュレートした,多様な実世界および合成ビデオで構成されている。我々は,既存のモデルにおける基本的欠陥を浮き彫りにして,人間のベースラインと比較して重要なパフォーマンスギャップを識別する。
論文参考訳（メタデータ） (2025-08-04T06:06:06Z)
Improving LLM Agent Planning with In-Context Learning via Atomic Fact Augmentation and Lookahead Search [48.348209577994865]
大規模言語モデル(LLM)はますます有能になるが、複雑で対話的な環境で効果的に機能するためには、重要なガイダンスや広範な相互作用履歴を必要とすることが多い。テキスト内学習による計画能力を高める新しいLLMエージェントフレームワークを提案する。我々のエージェントは、その相互作用軌跡からタスククリティカルな原子事実'を抽出することを学ぶ。
論文参考訳（メタデータ） (2025-06-10T18:36:31Z)
Incrementally Learning Multiple Diverse Data Domains via Multi-Source Dynamic Expansion Model [16.035374682124846]
継続学習は、事前知識を維持しつつ、新たな情報を漸進的に同化できるモデルの開発を目指している。本稿では,複数の異なるドメインから抽出されたデータサンプルを特徴とする,より複雑で現実的な学習環境に焦点を移す。
論文参考訳（メタデータ） (2025-01-15T15:49:46Z)
Dynamic Knowledge Integration for Enhanced Vision-Language Reasoning [0.0]
大規模視覚言語モデル(AKGP-LVLM)のための適応的知識誘導型事前学習法を提案する。事前訓練と微調整の間、構造化された、構造化されていない知識をLVLMに組み込む。提案手法を4つのベンチマークデータセットで評価し,最先端モデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2025-01-15T05:45:04Z)
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games [44.16513620589459]
本稿では,大規模言語モデル(LLM)と視覚言語モデル(VLM)のエージェント能力を評価する新しいベンチマークであるBALROGを紹介する。私たちのベンチマークでは、熟練していない人間が数秒で解決できるタスクや、習得に何年もかかるような極めて困難なタスクなど、さまざまな難易度を持つ既存の強化学習環境を取り入れています。より簡単なゲームでは,現行のモデルが部分的には成功しているが,より困難なタスクに苦しむことが示唆された。
論文参考訳（メタデータ） (2024-11-20T18:54:32Z)
Online Decision MetaMorphFormer: A Casual Transformer-Based Reinforcement Learning Framework of Universal Embodied Intelligence [2.890656584329591]
Online Decision MetaMorphFormer (ODM)は、自己認識、環境認識、行動計画の実現を目的としている。 ODMは、異なる環境にあるマルチジョイントボディを持つ任意のエージェントに適用することができ、大規模な事前トレーニングデータセットを使用して、さまざまなタイプのタスクでトレーニングすることができる。
論文参考訳（メタデータ） (2024-09-11T15:22:43Z)
Ontology-Enhanced Decision-Making for Autonomous Agents in Dynamic and Partially Observable Environments [0.0]
この論文では、自律エージェントのためのオントロジー強化意思決定モデル(OntoDeM)を紹介している。 OntoDeMはエージェントのドメイン知識を充実させ、予期せぬイベントを解釈し、目標を生成または適応させ、より良い意思決定を可能にする。 OntoDeMは従来の学習アルゴリズムや高度な学習アルゴリズムと比較して、動的で部分的に観察可能な環境におけるエージェントの観察と意思決定を改善する上で優れた性能を示している。
論文参考訳（メタデータ） (2024-05-27T22:52:23Z)
A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文参考訳（メタデータ） (2024-04-22T17:43:23Z)
Empowering Large Language Model Agents through Action Learning [85.39581419680755]
大規模言語モデル(LLM)エージェントは最近ますます関心を集めているが、試行錯誤から学ぶ能力は限られている。我々は、経験から新しい行動を学ぶ能力は、LLMエージェントの学習の進歩に欠かせないものであると論じる。我々はPython関数の形式でアクションを作成し改善するための反復学習戦略を備えたフレームワークLearningActを紹介した。
論文参考訳（メタデータ） (2024-02-24T13:13:04Z)
EpiK-Eval: Evaluation for Language Models as Epistemic Models [16.485951373967502]
セグメンテッドな物語から一貫した知識表現を定式化する上で,LLMの習熟度を評価するための新しい質問答えベンチマークであるEpiK-Evalを紹介する。これらの欠点は、一般的な訓練目的の本質的な性質に起因していると論じる。本研究の成果は,より堅牢で信頼性の高いLCMを開発する上での洞察を与えるものである。
論文参考訳（メタデータ） (2023-10-23T21:15:54Z)
Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文参考訳（メタデータ） (2023-05-29T14:29:12Z)
Language Models Meet World Models: Embodied Experiences Enhance Language Models [48.70726641605047]
大規模言語モデル(LM)は、物理的環境における単純な推論と計画にしばしば苦労する。我々は、世界モデルでそれらを微調整することで、LMを強化する新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-05-18T00:35:38Z)
Continual Visual Reinforcement Learning with A Life-Long World Model [55.05017177980985]
視覚力学モデリングのための新しい連続学習手法を提案する。まず,タスク固有の潜在ダイナミクスを学習する長寿命世界モデルを紹介する。そして,探索・保守的行動学習手法を用いて,過去の課題に対する価値推定問題に対処する。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
Improving Policy Learning via Language Dynamics Distillation [87.27583619910338]
本稿では,言語記述による実演を前提とした環境動態予測モデルであるLanguage Dynamics Distillation(LDD)を提案する。実演における言語記述は,環境全体にわたるサンプル効率と一般化を改善することを示す。
論文参考訳（メタデータ） (2022-09-30T19:56:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。