論文の概要: LiveClawBench: Benchmarking LLM Agents on Complex, Real-World Assistant Tasks
- arxiv url: http://arxiv.org/abs/2604.13072v1
- Date: Fri, 20 Mar 2026 16:08:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.658624
- Title: LiveClawBench: Benchmarking LLM Agents on Complex, Real-World Assistant Tasks
- Title(参考訳): LiveClawBench: 複雑で実世界のアシスタントタスクでLLMエージェントをベンチマークする
- Authors: Xiang Long, Li Du, Yilong Xu, Fangcheng Liu, Haoqing Wang, Ning Ding, Ziheng Li, Jianyuan Guo, Yehui Tang,
- Abstract要約: 実世界のアシスタントタスク上でLLMエージェントを評価するベンチマークであるLiveClawBenchを紹介する。
様々な実Clawの使用事例の分析に基づいて、三重軸複雑度フレームワークを導出する。
我々は,実世界のアシスタントタスクをカバーする,明示的な複雑性要素アノテーションを用いたパイロットベンチマークを構築した。
- 参考スコア(独自算出の注目度): 58.3639630490749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based agents are increasingly expected to handle real-world assistant tasks, yet existing benchmarks typically evaluate them under isolated sources of difficulty, such as a single environment or fully specified instructions. This leaves a substantial gap between current evaluation settings and the compositional challenges that arise in practical deployment. To address this gap, we introduce LiveClawBench, a benchmark to evaluate LLM agents on real-world assistant tasks. Based on an analysis of various real OpenClaw usage cases, we derive a Triple-Axis Complexity Framework that characterizes task difficulty along three dimensions: Environment Complexity, Cognitive Demand, and Runtime Adaptability. Guided by this framework, we construct a pilot benchmark with explicit complexity-factor annotations, covering real-world assistant tasks with compositional difficulty. Together, the framework and benchmark provide a principled foundation for evaluating LLM agents in realistic assistant settings, and establish a basis for future expansion across task domains and complexity axes. We are continuing to enrich our case collections to achieve more comprehensive domain and complexity coverage. The project page is at https://github.com/Mosi-AI/LiveClawBench.
- Abstract(参考訳): LLMベースのエージェントは、現実のアシスタントタスクを扱うことがますます期待されているが、既存のベンチマークは通常、単一の環境や完全に指定された命令など、独立した困難さのソースでそれらを評価している。
これにより、現在の評価設定と、実際のデプロイメントで発生する構成上の課題の間に、かなりのギャップが残されます。
このギャップに対処するために、実世界のアシスタントタスク上でLLMエージェントを評価するベンチマークであるLiveClawBenchを紹介する。
様々な実際のOpenClawのユースケースの分析に基づいて、環境複雑性、認知的要求、実行時適応性の3つの側面に沿ってタスクの難しさを特徴付ける3つのAxis Complexity Frameworkを導き出します。
このフレームワークによってガイドされた我々は,現実のアシスタントタスクを構成困難でカバーする,明示的な複雑性要素アノテーションを用いたパイロットベンチマークを構築した。
フレームワークとベンチマークは、現実的なアシスタント設定でLLMエージェントを評価するための原則化された基盤を提供し、タスクドメインと複雑性軸をまたいだ将来の拡張の基盤を確立する。
私たちは、より包括的なドメインと複雑さのカバレッジを達成するために、ケースコレクションを充実させ続けています。
プロジェクトページはhttps://github.com/Mosi-AI/LiveClawBench.comにある。
関連論文リスト
- Agent psychometrics: Task-level performance prediction in agentic coding benchmarks [24.348135523715815]
本稿では,エージェントプログラミング体制に合わせて,個々のタスクにおける成功や失敗を予測する枠組みを提案する。
我々のアプローチは、イシューステートメント、リポジトリコンテキスト、ソリューション、テストケースなど、タスクから抽出された豊富な機能を備えたアイテム応答理論(IRT)を拡張します。
論文 参考訳(メタデータ) (2026-04-01T07:59:59Z) - CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases [40.58765467531474]
CCR-Benchは、大規模言語モデルの複雑な命令への準拠を評価するために設計された新しいベンチマークである。
CCR-Benchは、(1)タスク仕様における内容とフォーマット要件の深い絡み合い、(2)複雑なタスクの分解、条件付き推論、手続き計画を含む指示、(3)実世界の産業シナリオから派生した評価サンプルを特徴とする。
論文 参考訳(メタデータ) (2026-03-09T01:49:19Z) - When LLM Meets Time Series: Can LLMs Perform Multi-Step Time Series Reasoning and Inference [12.867006554196358]
我々は、時系列AIアシスタントとしてLarge Language Modelsを評価する最初の試みであるTSAIAベンチマークを紹介する。
このベンチマークには、制約認識予測からしきい値校正による異常検出まで、幅広い課題が含まれている。
このベンチマークを適用し、統一評価プロトコルの下で8つの最先端LCMを評価する。
論文 参考訳(メタデータ) (2025-09-01T22:58:57Z) - EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models [64.70546873396624]
大規模言語モデル(LLM)を評価するためのEIFBENCH(Extremely Complex Instruction following Benchmark)を提案する。
EIFBENCHにはマルチタスクシナリオが含まれており、多様なタスクタイプを同時に総合的に評価することができる。
また,LLMのマルチタスクワークフローを正確に満たす能力を高めるために,セグメントポリシー最適化(SegPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-10T02:39:55Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。