論文の概要: AppSelectBench: Application-Level Tool Selection Benchmark
- arxiv url: http://arxiv.org/abs/2511.19957v1
- Date: Tue, 25 Nov 2025 06:06:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.295035
- Title: AppSelectBench: Application-Level Tool Selection Benchmark
- Title(参考訳): AppSelectBench: アプリケーションレベルのツール選択ベンチマーク
- Authors: Tianyi Chen, Michael Solodko, Sen Wang, Jongwoo Ko, Junheng Hao, Colby Banbury, Sara Abdali, Saeed Amizadeh, Qing Xiao, Yinheng Li, Tianyu Ding, Kamran Ghasedi Dizaji, Suzhen Zheng, Hao Fan, Justin Wagle, Pashmina Cameron, Kazuhito Koishida,
- Abstract要約: AppSelectBenchは、エージェント(CUA)を使用したコンピュータでのアプリケーション選択を評価するためのベンチマークである。
これには、現実的で多様性があり、セマンティックに根ざしたユーザ意図を大規模に生成する、新しいユーザタスク生成パイプラインが含まれている。
これには10万以上の現実的で多様性があり、セマンティックなユーザータスクが含まれます。
- 参考スコア(独自算出の注目度): 57.03660843195562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer Using Agents (CUAs) are increasingly equipped with external tools, enabling them to perform complex and realistic tasks. For CUAs to operate effectively, application selection, which refers to deciding which application to use before invoking fine-grained tools such as APIs, is a fundamental capability. It determines whether the agent initializes the correct environment, avoids orchestration confusion, and efficiently focuses on relevant context. However, existing benchmarks primarily assess fine-grained API selection, offering limited insight into whether models can reason across and choose between different applications. To fill this gap, we introduce AppSelectBench, a comprehensive benchmark for evaluating application selection in CUAs. AppSelectBench contains a novel user task generation pipeline that produces realistic, diverse, and semantically grounded user intents at scale, together with unified evaluation protocols covering random, heuristic, zero-shot, few-shot, and retrieval-augmented-settings. AppSelectBench covers one hundred widely used desktop applications and includes more than one hundred thousand realistic, diverse, and semantically grounded user tasks. Extensive experiments across both closed-source and open-source large language models reveal systematic strengths and weaknesses in inter-application reasoning, showing that even the most capable models still struggle to make consistent application choices. Together, these results establish AppSelectBench as a foundation for studying and advancing application level reasoning, an essential yet underexplored capability of intelligent CUAs. The source is available at https://github.com/microsoft/appselectbench.
- Abstract(参考訳): コンピュータ利用エージェント(CUA)は、ますます外部ツールを備えており、複雑で現実的なタスクを実行できる。
CUAが効果的に動作するためには、APIのようなきめ細かいツールを呼び出す前にどのアプリケーションを使うかを決めるアプリケーション選択が基本的な機能である。
エージェントが正しい環境を初期化するかどうかを判断し、オーケストレーションの混乱を回避し、関連するコンテキストに効率的にフォーカスする。
しかし、既存のベンチマークは、主にきめ細かいAPIの選択を評価し、異なるアプリケーション間でモデルが推論し、選択できるかどうかについて限定的な洞察を提供する。
このギャップを埋めるために、CUAのアプリケーション選択を評価するための包括的なベンチマークであるAppSelectBenchを紹介します。
AppSelectBenchには、ランダム、ヒューリスティック、ゼロショット、少数ショット、検索強化セットをカバーする統一された評価プロトコルとともに、現実的で多様な、セマンティックなユーザ意図を大規模に生成する、新しいユーザタスク生成パイプラインが含まれている。
AppSelectBenchは、広く使われている100以上のデスクトップアプリケーションをカバーする。
クローズドソースとオープンソースの両方にわたる大規模な実験では、アプリケーション間推論の体系的な長所と短所が示され、最も有能なモデルでさえ、一貫性のあるアプリケーション選択に苦慮している。
これらの結果とともに、AppSelectBenchは、インテリジェントCUAの本質的かつ未探索の能力であるアプリケーションレベルの推論を研究・推進するための基盤として確立されている。
ソースはhttps://github.com/microsoft/appselectbench.comで公開されている。
関連論文リスト
- Personalized Recommendations via Active Utility-based Pairwise Sampling [1.704905100460915]
単純かつ直感的なペアワイズ比較から好みを学習するユーティリティベースのフレームワークを提案する。
本研究の中心的な貢献は,嗜好評価のための新規なユーティリティベースアクティブサンプリング戦略である。
論文 参考訳(メタデータ) (2025-08-12T19:09:33Z) - UserBench: An Interactive Gym Environment for User-Centric Agents [110.77212949007958]
LLM(Large Language Models)ベースのエージェントは、推論とツールの使用において、目覚ましい進歩を遂げてきたが、ユーザと積極的にコラボレーションする能力はまだ未熟である。
マルチターン、選好駆動インタラクションにおいてエージェントを評価するために設計されたユーザ中心のベンチマークであるUserBenchを紹介する。
論文 参考訳(メタデータ) (2025-07-29T17:34:12Z) - Implementing Rational Choice Functions with LLMs and Measuring their Alignment with User Preferences [15.72977233489024]
我々は,大規模言語モデルを用いて合理的選択関数を実装する設計原則を提唱した。
自動車分野におけるIUIの実用化に向けた実証的研究を通じて,本手法の適用性を実証する。
論文 参考訳(メタデータ) (2025-04-22T09:08:21Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - FREYR: A Framework for Recognizing and Executing Your Requests [2.4797200957733576]
本稿では、ツールの使用プロセスを別のステップにモジュール化する合理化フレームワークであるFREYRを紹介する。
FREYRは従来のツール使用法に比べて優れた性能を示す。
我々はFREYRをゲームデザインに特化した実世界のテストケースのセットで評価し、Ollama APIが提供する従来のツール使用法と比較した。
論文 参考訳(メタデータ) (2025-01-21T11:08:18Z) - Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。
既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文 参考訳(メタデータ) (2024-05-25T08:23:05Z) - Supervised Embedded Methods for Hyperspectral Band Selection [12.09273192079783]
ハイパースペクトルイメージング(HSI)は、連続波長帯にわたる豊富なスペクトル情報をキャプチャする。
HSIは精密農業、環境モニタリング、自動運転の応用をサポートする。
タスク固有のHSI帯域選択のための2つの新しい教師付き組込み手法を提案する。
論文 参考訳(メタデータ) (2024-01-21T07:48:39Z) - Cache & Distil: Optimising API Calls to Large Language Models [82.32065572907125]
ジェネレーティブAIツールの大規模デプロイは、ユーザクエリをフルフィルするために、LLM(Large Language Model)に対する高価なAPI呼び出しに依存することが多い。
これらの呼び出しの頻度を縮めるために、より小さな言語モデル(学生)を用いることができる。
この学生は、ユーザー要求の増加に独立して対処する能力が徐々に向上する。
論文 参考訳(メタデータ) (2023-10-20T15:01:55Z) - When to Use What: An In-Depth Comparative Empirical Analysis of OpenIE
Systems for Downstream Applications [0.0]
本稿では、ニューラルネットワークOpenIEモデル、トレーニングセット、ベンチマークに関するアプリケーション中心の実証調査を紹介する。
異なるモデルとデータセットによる異なる仮定は、統計的にパフォーマンスに有意な影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2022-11-15T15:48:27Z) - Interactive and Visual Prompt Engineering for Ad-hoc Task Adaptation
with Large Language Models [116.25562358482962]
最先端のニューラルネットワークモデルは、教師付きトレーニングを必要とせずに、アドホックな言語タスクを解決するために使用することができる。
PromptIDEを使えば、ユーザはプロンプトのバリエーションを試すことができ、プロンプトのパフォーマンスを視覚化し、反復的にプロンプトを最適化できる。
論文 参考訳(メタデータ) (2022-08-16T17:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。