論文の概要: OSS-UAgent: An Agent-based Usability Evaluation Framework for Open Source Software
- arxiv url: http://arxiv.org/abs/2505.23239v1
- Date: Thu, 29 May 2025 08:40:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.76311
- Title: OSS-UAgent: An Agent-based Usability Evaluation Framework for Open Source Software
- Title(参考訳): OSS-UAgent: オープンソースソフトウェアのためのエージェントベースのユーザビリティ評価フレームワーク
- Authors: Lingkai Meng, Yu Shao, Long Yuan, Longbin Lai, Peng Cheng, Wenyuan Yu, Wenjie Zhang, Xuemin Lin, Jingren Zhou,
- Abstract要約: 我々のフレームワークは,大規模言語モデル(LLM)を利用したインテリジェントエージェントを用いて,プログラミングタスクを実行する開発者をシミュレートする。
OSS-UAgentは正確でコンテキスト対応のコード生成を保証する。
本稿では,OSS-UAgentがグラフ解析プラットフォーム評価に活用している実例を紹介する。
- 参考スコア(独自算出の注目度): 47.02288620982592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Usability evaluation is critical to the impact and adoption of open source software (OSS), yet traditional methods relying on human evaluators suffer from high costs and limited scalability. To address these limitations, we introduce OSS-UAgent, an automated, configurable, and interactive agent-based usability evaluation framework specifically designed for open source software. Our framework employs intelligent agents powered by large language models (LLMs) to simulate developers performing programming tasks across various experience levels (from Junior to Expert). By dynamically constructing platform-specific knowledge bases, OSS-UAgent ensures accurate and context-aware code generation. The generated code is automatically evaluated across multiple dimensions, including compliance, correctness, and readability, providing a comprehensive measure of the software's usability. Additionally, our demonstration showcases OSS-UAgent's practical application in evaluating graph analytics platforms, highlighting its effectiveness in automating usability evaluation.
- Abstract(参考訳): ユーザビリティ評価はオープンソースソフトウェア(OSS)の影響と採用に不可欠だが、従来の評価手法は高いコストと限られたスケーラビリティに悩まされている。
OSS-UAgentは,オープンソースソフトウェア用に特別に設計された,自動化された,構成可能な,インタラクティブなエージェントベースのユーザビリティ評価フレームワークである。
我々のフレームワークは,大規模言語モデル(LLM)を利用したインテリジェントエージェントを用いて,さまざまな経験レベル(ジュニアからエキスパートまで)でプログラミングタスクを実行する開発者をシミュレートする。
プラットフォーム固有の知識ベースを動的に構築することにより、OSS-UAgentは正確でコンテキスト対応のコード生成を保証する。
生成されたコードは、コンプライアンス、正確性、可読性など、複数の次元で自動的に評価され、ソフトウェアのユーザビリティを包括的に測定する。
さらに,OSS-UAgentによるグラフ分析プラットフォーム評価の実践的応用を実演し,ユーザビリティ評価の自動化における有効性を強調した。
関連論文リスト
- REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites [9.58858258192147]
実世界のWebサイトの決定論的シミュレーションにおけるマルチターンエージェント評価のためのベンチマークおよびフレームワークであるREALを紹介する。
また、日々の複雑なユーザインタラクションを反映した112の実践的なタスクからなるベンチマークもリリースしています。
我々のフレームワークは、新しいタスクの容易な統合、再現可能な評価、スケーラブルな後学習データ生成をサポートします。
論文 参考訳(メタデータ) (2025-04-15T18:22:55Z) - Watson: A Cognitive Observability Framework for the Reasoning of LLM-Powered Agents [7.392058124132526]
ファウンデーションモデル(FM)はエージェントソフトウェアのような複雑なソフトウェアシステムにおいて、ますます顕著な役割を担っている。
高速思考の大規模言語モデル(LLM)は、レイテンシの制約のため、依然として好まれている。
暗黙の推論プロセスに推論可能性を提供するフレームワークであるWatsonを紹介します。
論文 参考訳(メタデータ) (2024-11-05T19:13:22Z) - SWE-Search: Enhancing Software Agents with Monte Carlo Tree Search and Iterative Refinement [18.84439000902905]
現在の大規模言語モデル(LLM)ベースのソフトウェアエージェントは、しばしば線形でシーケンシャルなプロセスに従う。
モンテカルロ木探索(MCTS)と自己改善機構を統合したマルチエージェントフレームワークであるSWE-Searchを提案する。
これは、複雑なソフトウェアエンジニアリング環境における自己評価駆動検索技術の可能性を強調している。
論文 参考訳(メタデータ) (2024-10-26T22:45:56Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。