論文の概要: StarBench: A Turn-Based RPG Benchmark for Agentic Multimodal Decision-Making and Information Seeking
- arxiv url: http://arxiv.org/abs/2510.18483v1
- Date: Tue, 21 Oct 2025 10:02:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.421571
- Title: StarBench: A Turn-Based RPG Benchmark for Agentic Multimodal Decision-Making and Information Seeking
- Title(参考訳): StarBench: エージェントマルチモーダル意思決定と情報検索のためのターンベースのRPGベンチマーク
- Authors: Haoran Zhang, Chenhao Zhu, Sicong Guo, Hanzhe Guo, Haiming Li, Donglin Yu,
- Abstract要約: ターンベースのRPGベンチマークであるStarBenchを紹介する。
人間の実践を反映するために、StarBenchには、エージェントが簡単なガイダンスをリクエストするかどうかを計測するQ&A診断も含まれている。
その結果、直接体制における知覚と制御の忠実さの巨大なギャップが明らかとなり、また、司法情報探索が成功と相関していることが示唆された。
- 参考スコア(独自算出の注目度): 3.6318986135468827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human players do more than press buttons: they ground what they see on screen into precise keyboard-mouse actions and, when stuck, they seek information before trying again. We ask whether current vision-language models (VLMs) can do the same. Despite encouraging results under simplified control or tool scaffolds, human-like play in a real client - mapping raw screenshots to temporally coherent low-level actions while deciding when to ask for guidance - remains an open challenge. We introduce StarBench, a turn-based RPG benchmark derived from Honkai: Star Rail that targets these two human-like competencies: multimodal decision-making from pixels to actions and agentic information seeking. StarBench standardizes evaluation across eight combat tasks and two regimes with shared tasks and metrics: (i) direct control, where agents receive only screenshots and must emit low-level primitives (click and keypress) with no semantic hints; and (ii) tool-assisted control, where higher-level intents can be mapped to primitives by detectors and OCR outputs provide optional textualized observations to ease UI grounding. To mirror human practice, StarBench also includes an ask-or-act diagnostic that measures whether and when agents choose to request brief guidance before proceeding, and how that choice affects subsequent performance. We report reference baselines for contemporary VLMs and a human reference. Results expose sizable gaps in perception-to-control fidelity in the direct regime, while showing that judicious information seeking correlates with improved success, establishing StarBench as a reproducible yardstick for agentic information seeking and multimodal decision-making in real-client play.
- Abstract(参考訳): 人間のプレイヤーは押しボタン以上のことをする。画面に映っているものを正確にキーボードのマウスの動きに固定し、立ち止まると再度試す前に情報を求める。
現状の視覚言語モデル(VLM)も同様に機能するかどうかを問う。
シンプルなコントロールやツールの足場の下で結果を奨励する一方で、実際のクライアントでのヒューマンライクなプレイ — 生のスクリーンショットを時間的に一貫性のある低レベルのアクションにマッピングすると同時に、いつガイダンスを求めるべきかを判断する — はオープンな課題である。
本会から派生したターンベースのRPGベンチマークであるStarBenchを紹介します。
StarBenchは、共有タスクとメトリクスで8つの戦闘タスクと2つのレジームで評価を標準化する。
i) 直接制御であって,エージェントがスクリーンショットのみを受け取り,意味的ヒントのない低レベルのプリミティブ(クリックとキープレッション)を出力しなければならない場合
(II)ツールアシスト制御では,高レベルのインテントを検出器によってプリミティブにマッピングし,OCR出力をオプションでテキスト化してUIのグラウンド化を容易にする。
人間の実践を反映するために、StarBenchには、エージェントが続行する前に簡単なガイダンスをリクエストするかどうか、そしてその選択がその後のパフォーマンスにどのように影響するかを測定する、質問または行動診断も含まれている。
本稿では,現代VLMの基準基準と人間の基準について報告する。
その結果、直接体制における知覚と制御の忠実さの相違が明らかとなり、また、司法情報探索が成功と相関していることが示され、実際の遊びにおけるエージェント情報探索とマルチモーダル意思決定のための再現可能なヤードスティックとしてスターベンチが確立された。
関連論文リスト
- See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles [26.687510922403405]
マルチモーダルエージェントの トグル制御命令を確実に実行できないことが 重要なボトルネックです
本研究では,現在のトグル状態を理解し,所望の状態を解析し,それに従って行動する訓練手法であるステートアウェア推論(StaR)を提案する。
3つのマルチモーダルエージェントの実験により、StaRは命令実行精度を30%以上改善できることが示された。
論文 参考訳(メタデータ) (2025-09-17T01:14:14Z) - GTA1: GUI Test-time Scaling Agent [97.58177633084915]
グラフィカルユーザインタフェース(GUI)は、ユーザ命令をアクションプロポーザルに順次分解することで、プラットフォーム(例えばLinux)間で自律的にタスクを完了させる。
本稿では,前述の textbfGUI textbfTest-time Scaling textbfAgent,すなわち GTA1 の課題について検討する。
論文 参考訳(メタデータ) (2025-07-08T08:52:18Z) - XBOUND: Exploring Capability Boundaries of Device-Control Agents at the State Level [43.73689966281675]
Device-Control Agents(DCエージェント)はグラフィカルユーザインタフェース(GUI)を管理する
状態ごとの命令完了の精度を評価するための新しい評価手法 XBOUND を提案する。
UI-TARSは最強の7Bモデルであり、現在のエージェントは命令統一においてバイモーダルなパフォーマンスパターンを示し、サブ7Bモデルは状態熟達において制限されている。
論文 参考訳(メタデータ) (2025-05-27T14:49:30Z) - Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues [54.81155589931697]
協調インスタンスオブジェクトナビゲーション(CoIN)は、エージェントがターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定である。
未認識者に対するエージェント・ユーザインタラクション(AIUTA)の新たな学習自由化手法を提案する。
まず、オブジェクト検出時に、セルフクエチオナーモデルがエージェント内で自己対話を開始し、完全かつ正確な観察記述を得る。
インタラクショントリガーモジュールは、人間に質問するか、継続するか、ナビゲーションを停止するかを決定する。
論文 参考訳(メタデータ) (2024-12-02T08:16:38Z) - DMC-VB: A Benchmark for Representation Learning for Control with Visual Distractors [13.700885996266457]
行動クローニングやオフライン強化学習(RL)を通じて収集されたデータから学習することは、ジェネラリストエージェントをスケールするための強力なレシピである。
オフラインRLエージェントの堅牢性を評価するため,DeepMind Control Visual Benchmark (DMC-VB) をDeepMind Control Suiteで収集した。
そこで,本研究では,事前学習のための表現学習手法を評価するための3つのベンチマークを提案し,最近提案したいくつかの手法の実験を行った。
論文 参考訳(メタデータ) (2024-09-26T23:07:01Z) - First Contact: Unsupervised Human-Machine Co-Adaptation via Mutual
Information Maximization [112.40598205054994]
我々はこのアイデアを、インターフェースを最適化するための完全に教師なしの目的として定式化する。
タイピング,シミュレートされたロボットの制御,ゲームプレイなど,様々なキーボードとアイアイのインタフェースを運用しているユーザの540K例について,観察的研究を行った。
以上の結果から,我々の相互情報スコアは,様々な領域における真真正タスク完了メトリクスの予測値であることが示唆された。
論文 参考訳(メタデータ) (2022-05-24T21:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。