論文の概要: VisEscape: A Benchmark for Evaluating Exploration-driven Decision-making in Virtual Escape Rooms
- arxiv url: http://arxiv.org/abs/2503.14427v1
- Date: Tue, 18 Mar 2025 16:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:16:29.816708
- Title: VisEscape: A Benchmark for Evaluating Exploration-driven Decision-making in Virtual Escape Rooms
- Title(参考訳): VisEscape:仮想エスケープルームにおける探索駆動意思決定の評価ベンチマーク
- Authors: Seungwon Lim, Sungwoong Kim, Jihwan Yu, Sungjae Lee, Jiwan Chung, Youngjae Yu,
- Abstract要約: VisEscapeは、挑戦的な条件下でAIモデルを評価するために特別に設計された、20の仮想エスケープルームのベンチマークである。
VisEscapeでは、最先端のマルチモーダルモデルでさえ一般的に部屋から逃れることができず、進行と軌道のレベルにかなりの変化が見られた。
本稿では,メモリ,フィードバック,ReActモジュールを効果的に統合したVisEscaperを提案する。
- 参考スコア(独自算出の注目度): 19.642395585971194
- License:
- Abstract: Escape rooms present a unique cognitive challenge that demands exploration-driven planning: players should actively search their environment, continuously update their knowledge based on new discoveries, and connect disparate clues to determine which elements are relevant to their objectives. Motivated by this, we introduce VisEscape, a benchmark of 20 virtual escape rooms specifically designed to evaluate AI models under these challenging conditions, where success depends not only on solving isolated puzzles but also on iteratively constructing and refining spatial-temporal knowledge of a dynamically changing environment. On VisEscape, we observed that even state-of-the-art multimodal models generally fail to escape the rooms, showing considerable variation in their levels of progress and trajectories. To address this issue, we propose VisEscaper, which effectively integrates Memory, Feedback, and ReAct modules, demonstrating significant improvements by performing 3.7 times more effectively and 5.0 times more efficiently on average.
- Abstract(参考訳): プレイヤーは積極的に環境を探索し、新しい発見に基づいて知識を継続的に更新し、異なる手がかりを結びつけて、どの要素が目的に関連しているかを決定する。
この問題に触発されたVisEscapeは、これらの困難な条件下でAIモデルを評価するために特別に設計された20の仮想避難室のベンチマークであり、成功は、分離されたパズルの解決だけでなく、動的に変化する環境の空間的時間的知識を反復的に構築し、改善することにも依存する。
VisEscapeでは、最先端のマルチモーダルモデルでさえ一般的に部屋から逃れることができず、進行と軌道のレベルにかなりの変化が見られた。
この問題に対処するため,メモリ,フィードバック,ReActモジュールを効果的に統合したVisEscaperを提案する。
関連論文リスト
- EscapeBench: Pushing Language Models to Think Outside the Box [49.44742596224033]
EscapeBenchは、クリエイティブな推論を伴うエージェントに挑戦するために設計されたルームエスケープゲーム環境のベンチマークスイートである。
その結果,現在のLMモデルでは,動作メモリとChain-of-Thought推論が採用されているが,ヒントのない平均進行率は15%に過ぎなかった。
EscapeAgentは、Foresight(イノベーティブ・ツール・ユース)とReflection(未解決タスクの特定)による創造的推論を強化するためのフレームワークである。
論文 参考訳(メタデータ) (2024-12-18T06:50:39Z) - CogNav: Cognitive Process Modeling for Object Goal Navigation with LLMs [33.123447047397484]
オブジェクトゴールナビゲーション(Object goal navigation、ObjectNav)は、AIの具体化における基本的なタスクであり、エージェントが以前目に見えない環境でターゲットオブジェクトを見つける必要がある。
大規模言語モデルを用いた認知過程の模倣を目的としたフレームワークであるCogNavを提案する。
CogNavは、少なくとも最先端技術に比べて、ObjectNavの成功率を14%向上させる。
論文 参考訳(メタデータ) (2024-12-11T09:50:35Z) - Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。
本課題における最先端の視覚言語モデル(VLM)の性能について検討する。
本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文 参考訳(メタデータ) (2024-09-15T16:45:42Z) - Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Explore until Confident: Efficient Exploration for Embodied Question Answering [32.27111287314288]
我々は、大きな視覚言語モデルの強力な意味推論機能を活用して、質問を効率的に探索し、答える。
深度情報とVLMの視覚的プロンプトに基づいて,まずシーンのセマンティックマップを構築する手法を提案する。
次に、コンフォメーション予測を用いて、自信に答えるVLMの質問を校正し、いつ探索を中止するかをロボットが知ることができるようにする。
論文 参考訳(メタデータ) (2024-03-23T22:04:03Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Goal-conditioned Offline Planning from Curious Exploration [28.953718733443143]
本研究では,教師なし探索技術の産物から目標条件付き行動を抽出することの課題について考察する。
従来の目標条件強化学習手法では,この困難なオフライン環境では,値関数とポリシの抽出が不十分であることがわかった。
そこで本研究では,学習した値のランドスケープに対するモデルベース計画と,グラフベースの値アグリゲーション手法を組み合わせることを提案する。
論文 参考訳(メタデータ) (2023-11-28T17:48:18Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。