論文の概要: VisEscape: A Benchmark for Evaluating Exploration-driven Decision-making in Virtual Escape Rooms
- arxiv url: http://arxiv.org/abs/2503.14427v2
- Date: Sat, 22 Mar 2025 05:06:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 12:11:25.626433
- Title: VisEscape: A Benchmark for Evaluating Exploration-driven Decision-making in Virtual Escape Rooms
- Title(参考訳): VisEscape:仮想エスケープルームにおける探索駆動意思決定の評価ベンチマーク
- Authors: Seungwon Lim, Sungwoong Kim, Jihwan Yu, Sungjae Lee, Jiwan Chung, Youngjae Yu,
- Abstract要約: 私たちは、挑戦的な条件下でAIモデルを評価するために特別に設計された20の仮想エスケープルームのベンチマークであるVisEscapeを紹介します。
VisEscapeでは、最先端のマルチモーダルモデルでさえ一般的に部屋から逃れられず、進行と軌道のレベルにかなりの変化が見られる。
本稿では,メモリ,フィードバック,ReActモジュールを効果的に統合したVisEscaperを提案する。
- 参考スコア(独自算出の注目度): 19.642395585971194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Escape rooms present a unique cognitive challenge that demands exploration-driven planning: players should actively search their environment, continuously update their knowledge based on new discoveries, and connect disparate clues to determine which elements are relevant to their objectives. Motivated by this, we introduce VisEscape, a benchmark of 20 virtual escape rooms specifically designed to evaluate AI models under these challenging conditions, where success depends not only on solving isolated puzzles but also on iteratively constructing and refining spatial-temporal knowledge of a dynamically changing environment. On VisEscape, we observe that even state-of-the-art multimodal models generally fail to escape the rooms, showing considerable variation in their levels of progress and trajectories. To address this issue, we propose VisEscaper, which effectively integrates Memory, Feedback, and ReAct modules, demonstrating significant improvements by performing 3.7 times more effectively and 4.9 times more efficiently on average compared to baseline agents.
- Abstract(参考訳): プレイヤーは積極的に環境を探索し、新しい発見に基づいて知識を継続的に更新し、異なる手がかりを結びつけて、どの要素が目的に関連しているかを決定する。
この問題に触発されたVisEscapeは、これらの困難な条件下でAIモデルを評価するために特別に設計された20の仮想避難室のベンチマークであり、成功は、分離されたパズルの解決だけでなく、動的に変化する環境の空間的時間的知識を反復的に構築し、改善することにも依存する。
VisEscapeでは、最先端のマルチモーダルモデルでさえ一般的に部屋から逃れられず、進行と軌道のレベルにかなりの変化が見られる。
この問題に対処するため,メモリ,フィードバック,ReActモジュールを効果的に統合したVisEscaperを提案する。
関連論文リスト
- Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering [87.76784654371312]
Embodied Question Answeringでは、エージェントが動的に3D環境を探索し、視覚情報を積極的に収集し、質問に答えるために多段階の推論を行う必要がある。
既存のデータセットはしばしばバイアスや事前の知識を導入し、非身体的推論につながる。
探索能力と推論能力の両方を評価するために特別に設計された最大のデータセットを構築します。
論文 参考訳(メタデータ) (2025-03-14T06:29:47Z) - How Do Multimodal Large Language Models Handle Complex Multimodal Reasoning? Placing Them in An Extensible Escape Game [11.721839449847472]
マルチモーダル推論のベンチマークであるMM-Escapeを紹介する。
MM-Escapeは最終タスク完了と同時に中間モデル動作を強調している。
大規模な実験により、MLLMはスケールに関係なく、最も単純な部屋の脱出タスクを完了できることが示されている。
性能ボトルネックはモデルによって異なり、異なる障害モードとマルチモーダル推論能力の制限が明らかになる。
論文 参考訳(メタデータ) (2025-03-13T04:48:43Z) - AirRoom: Objects Matter in Room Reidentification [4.386378218714507]
AirRoomは、多レベルオブジェクト指向情報を統合するオブジェクト認識パイプラインである。
AirRoomは、ほぼすべての評価指標で最先端(SOTA)モデルを上回っている。
論文 参考訳(メタデータ) (2025-03-03T03:20:08Z) - EscapeBench: Pushing Language Models to Think Outside the Box [49.44742596224033]
EscapeBenchは、クリエイティブな推論を伴うエージェントに挑戦するために設計されたルームエスケープゲーム環境のベンチマークスイートである。
その結果,現在のLMモデルでは,動作メモリとChain-of-Thought推論が採用されているが,ヒントのない平均進行率は15%に過ぎなかった。
EscapeAgentは、Foresight(イノベーティブ・ツール・ユース)とReflection(未解決タスクの特定)による創造的推論を強化するためのフレームワークである。
論文 参考訳(メタデータ) (2024-12-18T06:50:39Z) - Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。
本課題における最先端の視覚言語モデル(VLM)の性能について検討する。
本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文 参考訳(メタデータ) (2024-09-15T16:45:42Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning [12.76337275628074]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z) - Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。
VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。
本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文 参考訳(メタデータ) (2019-11-17T18:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。