Fugu-MT 論文翻訳(概要): HAZARD Challenge: Embodied Decision Making in Dynamically Changing Environments

論文の概要: HAZARD Challenge: Embodied Decision Making in Dynamically Changing Environments

arxiv url: http://arxiv.org/abs/2401.12975v1
Date: Tue, 23 Jan 2024 18:59:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-24 14:48:05.640604
Title: HAZARD Challenge: Embodied Decision Making in Dynamically Changing Environments
Title（参考訳）: ハザードチャレンジ:動的変化環境における具体的意思決定
Authors: Qinhong Zhou, Sunli Chen, Yisong Wang, Haozhe Xu, Weihua Du, Hongxin Zhang, Yilun Du, Joshua B. Tenenbaum, Chuang Gan
Abstract要約: HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
参考スコア（独自算出の注目度）: 93.94020724735199
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in high-fidelity virtual environments serve as one of the major driving forces for building intelligent embodied agents to perceive, reason and interact with the physical world. Typically, these environments remain unchanged unless agents interact with them. However, in real-world scenarios, agents might also face dynamically changing environments characterized by unexpected events and need to rapidly take action accordingly. To remedy this gap, we propose a new simulated embodied benchmark, called HAZARD, specifically designed to assess the decision-making abilities of embodied agents in dynamic situations. HAZARD consists of three unexpected disaster scenarios, including fire, flood, and wind, and specifically supports the utilization of large language models (LLMs) to assist common sense reasoning and decision-making. This benchmark enables us to evaluate autonomous agents' decision-making capabilities across various pipelines, including reinforcement learning (RL), rule-based, and search-based methods in dynamically changing environments. As a first step toward addressing this challenge using large language models, we further develop an LLM-based agent and perform an in-depth analysis of its promise and challenge of solving these challenging tasks. HAZARD is available at https://vis-www.cs.umass.edu/hazard/.
Abstract（参考訳）: 高忠実な仮想環境の最近の進歩は、物理的世界に対する知覚、理性、相互作用のためのインテリジェントなエンボディエージェントを構築するための主要な推進力の1つである。通常、これらの環境はエージェントがそれらと相互作用しない限り変わらない。しかし、現実のシナリオでは、エージェントは予期せぬ出来事を特徴とする動的に変化する環境に直面し、それに応じて迅速に行動を起こす必要がある。このギャップを補うために、我々はHAZARDと呼ばれる新しい擬似具体化ベンチマークを提案し、特に動的状況における具体化エージェントの意思決定能力を評価する。 HAZARDは、火災、洪水、風などの予期せぬ3つの災害シナリオで構成され、一般的な感覚推論や意思決定を支援するために、大規模言語モデル(LLM)の利用を特に支援している。このベンチマークにより、動的に変化する環境において、強化学習(RL)、ルールベース、検索に基づく手法を含む、さまざまなパイプラインにわたる自律エージェントの意思決定能力を評価することができる。大規模言語モデルを用いてこの問題に対処する第一歩として,さらにLLMベースのエージェントを開発し,これらの課題を解決するための目標と課題を詳細に分析する。 HAZARDはhttps://vis-www.cs.umass.edu/hazard/で入手できる。

関連論文リスト

From Task Solving to Robust Real-World Adaptation in LLM Agents [17.122224644097304]
大規模言語モデルは、拡張された地平線上での計画、呼び出し、アクションを行う特別なエージェントとして、ますます多くデプロイされている。グリッド型ゲームにおけるエージェントLLMを、単純なゴールだが長距離実行でベンチマークする。名目上のタスク解決と,デプロイメントのような堅牢性の間には,大きなギャップがあります。
論文参考訳（メタデータ） (2026-02-02T20:10:40Z)
Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文参考訳（メタデータ） (2025-11-06T22:24:35Z)
Towards General Agentic Intelligence via Environment Scaling [78.66355092082253]
高度なエージェントインテリジェンスは、現実世界のアプリケーションに大規模言語モデルをデプロイするための前提条件である。完全にシミュレートされた異種環境を自動的に構築するスケーラブルなフレームワークを設計する。エージェントベンチマーク, tau-bench, tau2-Bench, ACEBenchの実験により, トレーニングモデルである AgentScaler が, モデルの関数呼び出し能力を大幅に向上することを示した。
論文参考訳（メタデータ） (2025-09-16T17:57:20Z)
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文参考訳（メタデータ） (2025-09-02T17:46:26Z)
Adaptability in Multi-Agent Reinforcement Learning: A Framework and Unified Review [9.246912481179464]
MARL(Multi-Agent Reinforcement Learning)は、シミュレーションベンチマークと制約付きシナリオ間で複数のエージェントを協調する上で、明らかな効果を示している。この調査は、動的で実世界のマルチエージェントシステムへのデプロイに適したアルゴリズムの開発に寄与する。
論文参考訳（メタデータ） (2025-07-14T10:39:17Z)
Situationally-Aware Dynamics Learning [57.698553219660376]
隠れ状態表現のオンライン学習のための新しいフレームワークを提案する。提案手法は、非観測パラメータが遷移力学と報酬構造の両方に与える影響を明示的にモデル化する。シミュレーションと実世界の両方の実験は、データ効率、ポリシー性能、安全で適応的なナビゲーション戦略の出現を著しく改善した。
論文参考訳（メタデータ） (2025-05-26T06:40:11Z)
Unlocking Smarter Device Control: Foresighted Planning with a World Model-Driven Code Execution Approach [83.21177515180564]
本研究では,自然言語理解と構造化推論を優先し,エージェントの環境に対するグローバルな理解を高める枠組みを提案する。本手法は,従来の手法,特にタスク成功率の44.4%向上を達成している。
論文参考訳（メタデータ） (2025-05-22T09:08:47Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions [68.92637077909693]
本稿では,グラフィカルユーザインタフェース(GUI)環境におけるマルチモーダル大規模言語モデル(MLLM)エージェントの忠実さについて検討する。ユーザとエージェントの両方が良性であり、環境は悪質ではないが、無関係なコンテンツを含む、一般的な設定が提案されている。実験結果から、ジェネラリストエージェントや専門的なGUIエージェントなど、最も強力なモデルでさえ、気晴らしの影響を受けやすいことが明らかとなった。
論文参考訳（メタデータ） (2024-08-05T15:16:22Z)
Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations [22.6449779859417]
汎用インテリジェンスには、タスク間の迅速な適応が必要です。本稿では,分布だけでなく,環境空間も変化するシナリオを幅広く検討する。我々はCSRと呼ばれる因果性誘導型自己適応表現に基づく手法を導入し、エージェントを効果的に一般化させる。
論文参考訳（メタデータ） (2024-07-30T08:48:49Z)
DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents [49.74065769505137]
本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。 8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
論文参考訳（メタデータ） (2024-06-10T20:08:44Z)
Ontology-Enhanced Decision-Making for Autonomous Agents in Dynamic and Partially Observable Environments [0.0]
この論文では、自律エージェントのためのオントロジー強化意思決定モデル(OntoDeM)を紹介している。 OntoDeMはエージェントのドメイン知識を充実させ、予期せぬイベントを解釈し、目標を生成または適応させ、より良い意思決定を可能にする。 OntoDeMは従来の学習アルゴリズムや高度な学習アルゴリズムと比較して、動的で部分的に観察可能な環境におけるエージェントの観察と意思決定を改善する上で優れた性能を示している。
論文参考訳（メタデータ） (2024-05-27T22:52:23Z)
Dynamic Quality-Diversity Search [2.4797200957733576]
本稿では,環境変化時に過去のソリューションのアーカイブを更新し続けることを目的とした,新規で汎用的な動的QD手法を提案する。第二に、よく知られたベンチマークに容易に適用可能な動的環境の新たな特徴付けについて、静的タスクから動的環境へ移行するための小さな介入を行った。
論文参考訳（メタデータ） (2024-04-07T19:00:15Z)
Act as You Learn: Adaptive Decision-Making in Non-Stationary Markov Decision Processes [5.276882857467777]
textitAdaptive Monte Carlo Tree Search (ADA-MCTS) という検索アルゴリズムを提案する。エージェントは時間とともに環境の更新されたダイナミクスを学習し、そのエージェントが学習する時、すなわち、そのエージェントが知識が更新された状態空間の領域にいる場合、悲観的にならないことを示す。
論文参考訳（メタデータ） (2024-01-03T17:19:54Z)
Novelty Accommodating Multi-Agent Planning in High Fidelity Simulated Open World [7.821603097781892]
我々は、予期せぬ現象、すなわちテクストノベルティが環境中に現れるときに生じる課題に対処する。環境への新規性の導入は、プランナーの内部モデルに不正確な結果をもたらす可能性がある。本稿では,同時動作と外部スケジューリングをサポートするための汎用AIエージェントフレームワークを提案する。
論文参考訳（メタデータ） (2023-06-22T03:44:04Z)
Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文参考訳（メタデータ） (2021-12-07T18:50:42Z)
CausalCity: Complex Simulations with Agency for Causal Discovery and Reasoning [68.74447489372037]
本稿では,因果探索と反事実推論のためのアルゴリズムの開発を目的とした,高忠実度シミュレーション環境を提案する。私たちの作業の中核となるコンポーネントは、複雑なシナリオを定義して作成することが簡単になるような、テキストの緊急性を導入することです。我々は3つの最先端の手法による実験を行い、ベースラインを作成し、この環境の可利用性を強調する。
論文参考訳（メタデータ） (2021-06-25T00:21:41Z)
Emergent Complexity and Zero-shot Transfer via Unsupervised Environment Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文参考訳（メタデータ） (2020-12-03T17:37:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。