論文の概要: ClawArena: Benchmarking AI Agents in Evolving Information Environments
- arxiv url: http://arxiv.org/abs/2604.04202v1
- Date: Sun, 05 Apr 2026 17:55:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.979757
- Title: ClawArena: Benchmarking AI Agents in Evolving Information Environments
- Title(参考訳): ClawArena: 情報環境の進化におけるAIエージェントのベンチマーク
- Authors: Haonian Ji, Kaiwen Xiong, Siwei Han, Peng Xia, Shi Qiu, Yiyang Zhou, Jiaqi Liu, Jinlong Li, Bingzhou Li, Zeyu Zheng, Cihang Xie, Huaxiu Yao,
- Abstract要約: ClawArenaは、進化する情報環境におけるAIエージェントの評価のためのベンチマークである。
それぞれのシナリオは、エージェントをノイズ、部分的、時には矛盾するトレースだけに露呈しながら、完全に隠された地上の真実を維持します。
評価は、マルチソースコンフリクト推論、動的信念修正、暗黙のパーソナライゼーションという3つの複合的な課題に基づいて構成される。
- 参考スコア(独自算出の注目度): 61.664633997138004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI agents deployed as persistent assistants must maintain correct beliefs as their information environment evolves. In practice, evidence is scattered across heterogeneous sources that often contradict one another, new information can invalidate earlier conclusions, and user preferences surface through corrections rather than explicit instructions. Existing benchmarks largely assume static, single-authority settings and do not evaluate whether agents can keep up with this complexity. We introduce ClawArena, a benchmark for evaluating AI agents in evolving information environments. Each scenario maintains a complete hidden ground truth while exposing the agent only to noisy, partial, and sometimes contradictory traces across multi-channel sessions, workspace files, and staged updates. Evaluation is organized around three coupled challenges: multi-source conflict reasoning, dynamic belief revision, and implicit personalization, whose interactions yield a 14-category question taxonomy. Two question formats, multi-choice (set-selection) and shell-based executable checks, test both reasoning and workspace grounding. The current release contains 64 scenarios across 8 professional domains, totaling 1{,}879 evaluation rounds and 365 dynamic updates. Experiments on five agent frameworks and five language models show that both model capability (15.4% range) and framework design (9.2%) substantially affect performance, that self-evolving skill frameworks can partially close model-capability gaps, and that belief revision difficulty is determined by update design strategy rather than the mere presence of updates. Code is available at https://github.com/aiming-lab/ClawArena.
- Abstract(参考訳): 永続的なアシスタントとしてデプロイされるAIエージェントは、情報環境が進化するにつれて、正しい信念を維持する必要がある。
実際には、エビデンスはしばしば矛盾する異質なソースに分散し、新しい情報は以前の結論を無効にし、明示的な指示ではなく修正によってユーザーの嗜好を表面化する。
既存のベンチマークでは、主に静的でシングルオーソリティの設定を前提としており、エージェントがこの複雑さに対処できるかどうか評価していない。
我々は、進化する情報環境においてAIエージェントを評価するためのベンチマークであるClawArenaを紹介する。
各シナリオは、エージェントをノイズ、部分的、時には矛盾するトレースのみに公開しながら、完全に隠された土台真実を保持します。
評価は、マルチソースのコンフリクト推論、動的信念の修正、暗黙のパーソナライゼーションの3つの課題に基づいて構成される。
複数選択(セット選択)とシェルベースの実行可能チェックという2つの質問形式は、推論とワークスペースグラウンドの両方をテストする。
現在のリリースには8つのプロフェッショナルドメインにわたる64のシナリオが含まれており、合計1{,}879の評価ラウンドと365の動的更新が含まれている。
5つのエージェントフレームワークと5つの言語モデルの実験では、モデル能力(15.4%の範囲)とフレームワーク設計(9.2%)の両方がパフォーマンスに大きく影響し、自己進化するスキルフレームワークは部分的にモデル能力のギャップを埋めることができ、信念の再定義の難しさは、単に更新が存在するのではなく、デザイン戦略の更新によって決定される。
コードはhttps://github.com/aiming-lab/ClawArenaで入手できる。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security? [10.248746359119625]
EVMbenchは、スマートコントラクトセキュリティに関するAIエージェントのための最初の大規模なベンチマークである。
その成果は、完全に自動化されたAI監査が到達範囲内にあるという期待を後押しした。
これらの発見は、完全に自動化されたAI監査が差し迫っているという物語に挑戦する。
論文 参考訳(メタデータ) (2026-03-11T14:07:16Z) - BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? [61.247730037229815]
BeyondSWEは2つの軸 – 解像度スコープと知識スコープ – に沿って既存の評価を拡張する包括的なベンチマークです。
外部知識の役割を解明するために,ディープ検索とコーディング能力を統合するフレームワークであるSearchSWEを開発した。
この作業は、現実的で挑戦的な評価ベンチマークと、より有能なコードエージェントに向けた研究を進めるための柔軟なフレームワークの両方を提供する。
論文 参考訳(メタデータ) (2026-03-03T17:52:01Z) - ESAA: Event Sourcing for Autonomous Agents in LLM-Based Software Engineering [0.0]
本稿では,ESAA(Event Sourcing for Autonomous Agents)アーキテクチャについて述べる。
アーキテクチャは、イベントソーシングパターンにインスパイアされた、認知意図とプロジェクトの状態突然変異を分離する。
2つのケーススタディは、アーキテクチャを検証し、単一エージェントのシナリオを超えたアーキテクチャのスケーラビリティの実証的な証拠を提供する。
論文 参考訳(メタデータ) (2026-02-26T16:45:59Z) - PublicAgent: Multi-Agent Design Principles From an LLM-Based Open Data Analysis Framework [5.863391019411233]
大規模言語モデルは個々のタスクを約束するが、エンドツーエンドの分析は基本的な制限を露呈する。
PublicAgentは、意図の明確化、データセット発見、分析、レポートのための特殊なエージェントへの分解を通じて、これらの制限に対処するマルチエージェントフレームワークである。
論文 参考訳(メタデータ) (2025-11-04T21:48:11Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。