論文の概要: DrawingBench: Evaluating Spatial Reasoning and UI Interaction Capabilities of Large Language Models through Mouse-Based Drawing Tasks
- arxiv url: http://arxiv.org/abs/2512.01174v1
- Date: Mon, 01 Dec 2025 01:18:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.624176
- Title: DrawingBench: Evaluating Spatial Reasoning and UI Interaction Capabilities of Large Language Models through Mouse-Based Drawing Tasks
- Title(参考訳): DrawingBench:マウスによる大規模言語モデルの空間的推論とUIインタラクション能力の評価
- Authors: Hyunjun Kim, Sooyoung Ryu,
- Abstract要約: DrawingBenchはエージェントLLMの信頼性を評価するための検証フレームワークである。
我々のフレームワークは、20のカテゴリに250の多様なプロンプトと4つの難易度から構成されている。
我々は1000回の試験で4つの最先端LCMを評価した。
- 参考スコア(独自算出の注目度): 10.977990951788422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As agentic AI systems increasingly operate autonomously, establishing trust through verifiable evaluation becomes critical. Yet existing benchmarks lack the transparency and auditability needed to assess whether agents behave reliably. We present DrawingBench, a verification framework for evaluating the trustworthiness of agentic LLMs through spatial reasoning tasks that require generating sequences of low-level GUI actions. Unlike opaque evaluations, DrawingBench provides transparent, rule-based assessment: 8 objective criteria enable reproducible scoring, while action-level inspection allows stakeholders to audit agent behavior. Our framework comprises 250 diverse prompts across 20 categories and 4 difficulty levels, deterministic evaluation metrics, and an external oversight mechanism through multi-turn feedback that enables human control over agent refinement. Evaluating four state-of-the-art LLMs (Claude-4 Sonnet, GPT-4.1, GPT-4.1-mini, Gemini-2.5 Flash) across 1,000 tests, we establish both capabilities and limitations: models achieved 92.8% perfect performance with structured external feedback driving significant improvements (average +3.2%, up to +32.8% for complex scenes), but systematic error patterns emerged in tool state management and long-horizon planning. Notably, specification clarity proved more important than task complexity -- models achieved 100% perfect performance when given explicit, verifiable criteria. These findings demonstrate that transparent evaluation frameworks can establish trust in agentic systems, with external oversight proving more reliable than self-correction for guiding agent behavior. Our open-source framework provides a template for trustworthy agent assessment. Code and data: https://github.com/hyunjun1121/DrawingBench
- Abstract(参考訳): エージェントAIシステムが自律的に運用されるようになると、検証可能な評価を通じて信頼を確立することが重要になる。
しかし、既存のベンチマークでは、エージェントが確実に振る舞うかどうかを評価するのに必要な透明性と監査性が欠如している。
低レベルのGUI動作のシーケンスを生成する必要がある空間的推論タスクを通じてエージェントLLMの信頼性を評価するための検証フレームワークであるDrawingBenchを提案する。
不透明な評価とは異なり、DrawingBench氏は、透過的でルールベースの評価を提供する。 8つの客観的基準は再現可能なスコアを可能にし、アクションレベルの検査は、ステークホルダーがエージェントの振る舞いを監査することを可能にする。
本フレームワークは,20のカテゴリに250の多様なプロンプトと4つの難易度,決定論的評価指標,マルチターンフィードバックによる外部監視機構から構成される。
1000回の試験で4つの最先端LCM(Claude-4 Sonnet, GPT-4.1, GPT-4.1-mini, Gemini-2.5 Flash)を評価すると、モデルが92.8%、外部からのフィードバックによって92.8%の完全なパフォーマンスを実現し、大幅な改善(平均+3.2%、複雑なシーンでは+32.8%)がなされたが、ツールの状態管理と長期計画において体系的なエラーパターンが出現した。
特に、仕様の明確さはタスクの複雑さよりも重要であることが分かりました。
これらの結果から, エージェントシステムの信頼性は, エージェント行動の自己補正よりも信頼性が高く, 透明性評価フレームワークがエージェントシステムへの信頼を確立できることが示唆された。
私たちのオープンソースフレームワークは、信頼できるエージェントアセスメントのためのテンプレートを提供します。
コードとデータ:https://github.com/hyunjun1121/DrawingBench
関連論文リスト
- CUARewardBench: A Benchmark for Evaluating Reward Models on Computer-using Agent [46.41047559759938]
CUA(Computer-using Agent)は、オペレーティングシステムやソフトウェアインターフェースとの自然なインタラクションを通じてタスクの完了を可能にするエージェントである。
Reward モデルは有望な代替手段を提供するが、CUA 評価におけるその有効性はほとんど未検討である。
CUARewardBenchは4つの重要なコントリビューションから構成される。
論文 参考訳(メタデータ) (2025-10-21T12:53:40Z) - VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents [130.70999337445468]
言語モデル(LLM)エージェントと比較して、視覚言語モデル(VLM)エージェントを訓練する際の重要な課題は、テキスト状態から複雑な視覚観察に移行することである。
VLMエージェントは、明示的な視覚状態推論によって内部世界モデルを構築することができるか?
我々は、強化学習(RL)を通して、エージェントの推論プロセスを建築的に実施し、報奨する。
エージェントの状態推定と遷移モデリングへの推論が成功に不可欠であることが分かりました。
論文 参考訳(メタデータ) (2025-10-19T16:05:07Z) - How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。
エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。
私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文 参考訳(メタデータ) (2025-10-10T19:04:28Z) - ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability [23.70973331911138]
使用可能な推論システムは、解釈可能性、忠実性、信頼性の3つの特性を特徴とする、信頼できるものでなければならない、と我々は主張する。
本稿では,GRPOと教師付き微調整を統合した新しいトレーニングフレームワークReFIneを提案する。
実験の結果,ReFIneモデルはより明確でより構造化された推論トレースを生成することがわかった。
論文 参考訳(メタデータ) (2025-10-10T07:08:44Z) - Zero-shot reasoning for simulating scholarly peer-review [0.0]
本稿では、AI生成ピアレビューレポートを評価するための、最初の安定的でエビデンスに基づく標準を提供する決定論的シミュレーションフレームワークについて検討する。
第一に、このシステムは校正された編集判断をシミュレートすることができ、「改訂」決定が一貫して多数決結果を形成する。
第二に、手続きの整合性を揺るぎないまま維持し、安定した29%の証明の遵守率を強制する。
論文 参考訳(メタデータ) (2025-10-02T13:59:14Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - JudgeAgent: Knowledge-wise and Dynamic LLM Evaluation with Agent-as-Interviewer [19.09571232466437]
大規模言語モデル(LLM)のための動的評価パラダイムであるエージェント・アズ・インタービューアを提案する。
現在のベンチマークや動的相互作用のパラダイムとは異なり、エージェント・アズ・インタービューアはエージェントを使用して動的マルチターン質問生成においてより広く深い知識を得るために知識ツールを呼び出します。
我々は、知識駆動型合成をエージェントのツールとして活用し、戦略指導として難易度スコアリングを利用する知識ワイドな動的評価フレームワークであるJiceAgentを開発する。
論文 参考訳(メタデータ) (2025-09-02T08:52:16Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。