論文の概要: AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios
- arxiv url: http://arxiv.org/abs/2601.20613v1
- Date: Wed, 28 Jan 2026 13:49:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.953999
- Title: AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios
- Title(参考訳): AgentIF-OneDay: 日常シナリオにおける汎用AIエージェントのためのタスクレベルのインストラクションフォローベンチマーク
- Authors: Kaiyuan Chen, Qimin Wu, Taiyu Hou, Tianhao Tang, Xueyu Hu, Yuchen Hou, Bikun Li, Chengming Qian, Guoyin Wang, Haolin Chen, Haotong Tian, Haoye Zhang, Haoyu Bian, Hongbing Pan, Hongkang Zhang, Hongyi Zhou, Jiaqi Cai, Jiewu Rao, Jiyuan Ren, Keduan Huang, Lucia Zhu Huang, Mingyu Yuan, Naixu Guo, Qicheng Tang, Qinyan Zhang, Shuai Chen, Siheng Chen, Ting Ting Li, Xiaoxing Guo, Yaocheng Zuo, Yaoqi Guo, Yinan Wang, Yinzhou Yu, Yize Wang, Yuan Jiang, Yuan Tian, Yuanshuo Zhang, Yuxuan Liu, Yvette Yan Zeng, Zenyu Shan, Zihan Yin, Xiaobo Hu, Yang Liu, Yixin Ren, Yuan Gong,
- Abstract要約: 持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。
エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。
本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
- 参考スコア(独自算出の注目度): 49.90735676070039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The capacity of AI agents to effectively handle tasks of increasing duration and complexity continues to grow, demonstrating exceptional performance in coding, deep research, and complex problem-solving evaluations. However, in daily scenarios, the perception of these advanced AI capabilities among general users remains limited. We argue that current evaluations prioritize increasing task difficulty without sufficiently addressing the diversity of agentic tasks necessary to cover the daily work, life, and learning activities of a broad demographic. To address this, we propose AgentIF-OneDay, aimed at determining whether general users can utilize natural language instructions and AI agents to complete a diverse array of daily tasks. These tasks require not only solving problems through dialogue but also understanding various attachment types and delivering tangible file-based results. The benchmark is structured around three user-centric categories: Open Workflow Execution, which assesses adherence to explicit and complex workflows; Latent Instruction, which requires agents to infer implicit instructions from attachments; and Iterative Refinement, which involves modifying or expanding upon ongoing work. We employ instance-level rubrics and a refined evaluation pipeline that aligns LLM-based verification with human judgment, achieving an 80.1% agreement rate using Gemini-3-Pro. AgentIF-OneDay comprises 104 tasks covering 767 scoring points. We benchmarked four leading general AI agents and found that agent products built based on APIs and ChatGPT agents based on agent RL remain in the first tier simultaneously. Leading LLM APIs and open-source models have internalized agentic capabilities, enabling AI application teams to develop cutting-edge Agent products.
- Abstract(参考訳): 持続時間と複雑性が増加するタスクを効果的に処理するAIエージェントの能力は成長し続けており、コーディング、ディープリサーチ、複雑な問題解決評価において例外的なパフォーマンスを示している。
しかし、日々のシナリオでは、一般ユーザーの間でこれらの高度なAI能力に対する認識は限られている。
現在の評価は、幅広い人口の日々の作業、生活、学習活動をカバーするために必要なエージェントタスクの多様性に十分に対処することなく、タスクの難易度の向上を優先していると論じる。
そこで本研究では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するために,AgentIF-OneDayを提案する。
これらのタスクは、対話を通じて問題を解決するだけでなく、様々なアタッチメントタイプを理解し、ファイルベースの具体的な結果を提供する必要がある。
ベンチマークは、明示的で複雑なワークフローへの準拠を評価するOpen Workflow Execution、アタッチメントから暗黙的な指示を推論するエージェントを必要とするLatent Instruction、進行中の作業の変更や拡張を含むIterative Refinementの3つのカテゴリで構成されている。
我々は,LLMに基づく検証と人間の判断を一致させ,Gemini-3-Proを用いた80.1%の合意率を達成するための,インスタンスレベルのルーリックと洗練された評価パイプラインを用いている。
AgentIF-OneDayは767点をカバーする104のタスクで構成されている。
エージェントRLをベースとしたAPIとChatGPTエージェントをベースとしたエージェント製品が,同時に第1段階に留まることを発見した。
LLM APIをリードするオープンソースモデルには内部的なエージェント機能があり、AIアプリケーションチームが最先端のエージェント製品を開発することができる。
関連論文リスト
- AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - QAgent: A modular Search Agent with Interactive Query Understanding [25.147900132089777]
大規模言語モデルは自然言語処理に優れるが、静的パラメトリック知識によって制限される。
本稿では,適応検索に検索エージェントを用いる統一エージェントRAGフレームワークを提案する。
実験ではQAでQAgentが優れていることを示し、実世界のデプロイのためのプラグイン・アンド・プレイモジュールとして機能する。
論文 参考訳(メタデータ) (2025-10-09T16:08:05Z) - Open Agent Specification (Agent Spec): A Unified Representation for AI Agents [10.685555728094338]
我々はAIエージェントとエージェントを定義する宣言型言語Open Agent Specification(Agent Spec)を紹介する。
Agent Specは、コンポーネント、コントロールとデータフローのセマンティクス、スキーマの共通セットを定義し、エージェントを一度定義し、異なるランタイム間で実行できるようにする。
論文 参考訳(メタデータ) (2025-10-05T12:26:42Z) - Self-Challenging Language Model Agents [98.62637336505242]
本稿では,エージェントが自ら生成する高品質なタスクについて,エージェントを訓練するためのセルフチェンジフレームワークを提案する。
このフレームワークは、Llama-3.1-8B-Instructの2倍の改善を実現している。
論文 参考訳(メタデータ) (2025-06-02T14:23:33Z) - Cross-Task Experiential Learning on LLM-based Multi-Agent Collaboration [63.90193684394165]
マルチエージェント・クロスタスク体験学習(MAEL)は,LSM駆動型エージェントに明示的なクロスタスク学習と経験蓄積を付与する新しいフレームワークである。
経験的学習フェーズでは、タスク解決ワークフローの各ステップの品質を定量化し、その結果の報酬を記憶する。
推論中、エージェントは、各推論ステップの有効性を高めるために、いくつかの例として、高頻度のタスク関連体験を検索する。
論文 参考訳(メタデータ) (2025-05-29T07:24:37Z) - AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T17:31:10Z) - YETI (YET to Intervene) Proactive Interventions by Multimodal AI Agents in Augmented Reality Tasks [16.443149180969776]
Augmented Reality (AR)ヘッドウェアは、日々の手続き的なタスクを解く際のユーザエクスペリエンスを一意に改善することができる。
このようなAR機能は、AIエージェントがユーザーのマルチモーダル機能に関連するアクションを見て耳を傾けるのに役立つ。
一方、AIエージェントのプロアクティビティは、人間が観察されたタスクのミスを検出し、修正するのに役立つ。
論文 参考訳(メタデータ) (2025-01-16T08:06:02Z) - SOP-Agent: Empower General Purpose AI Agent with Domain-Specific SOPs [9.117180930298813]
汎用AIエージェントは、ドメイン固有の知識と人間の専門知識を効率的に活用するのに苦労する。
ドメイン固有のエージェントを構築するための新しいフレームワークであるSOP-agent(Standard Operational Procedure-Guided Agent)を紹介する。
SOPエージェントは優れた汎用性を示し、汎用エージェントフレームワークよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-01-16T06:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。