論文の概要: Can AI Freelancers Compete? Benchmarking Earnings, Reliability, and Task Success at Scale
- arxiv url: http://arxiv.org/abs/2505.13511v1
- Date: Fri, 16 May 2025 22:42:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.353296
- Title: Can AI Freelancers Compete? Benchmarking Earnings, Reliability, and Task Success at Scale
- Title(参考訳): AIフリーランサーは相容れないか? 大規模でアーニング、信頼性、タスク成功のベンチマーク
- Authors: David Noever, Forrest McKee,
- Abstract要約: 我々は、Kaggleの投稿から生成される合成タスクを用いて、ベンチマークを構築する。
各タスクには、構造化された入力テストケースと推定価格が伴う。
本ベンチマークでは,現代LLM (3.5 Claude Haiku, GPT-4o-mini, Qwen 2.5, Mistral) の評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study explores Large Language Models (LLMs) as autonomous agents for real-world tasks, including freelance software development. This work presents a new benchmark that evaluates LLMs on freelance programming and data analysis tasks derived from economic data. We construct the benchmark using synthetic tasks created from a Kaggle Freelancer dataset of job postings, with all job prices standardized to USD (median fixed-project price around $250, and an average of $306). Each task is accompanied by structured input-output test cases and an estimated price tag, enabling automated correctness checking and a monetary performance valuation. This approach is inspired by OpenAI's recent SWE-Lancer benchmark (1,400 real Upwork tasks worth $1M total). Still, our framework simplifies evaluation using programmatically testable tasks and predicted price values, making it highly scalable and repeatable. On this benchmark, we evaluate four modern LLMs - Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5, and Mistral. We report each model's accuracy (task success rate and test-case pass rate) and the total "freelance earnings" it achieves (sum of prices of solved tasks). Our results show that Claude 3.5 Haiku performs best, earning approximately $1.52 million USD, followed closely by GPT-4o-mini at $1.49 million, then Qwen 2.5 ($1.33M) and Mistral ($0.70M). We analyze the distribution of errors per task and observe that the strongest models solve the most tasks and rarely fail completely on any project. We discuss the implications of these results for the feasibility of AI as a freelance developer, the advantages and limitations of our automated benchmark approach, and the gap between performance on structured tasks versus the true complexity of real-world freelance jobs.
- Abstract(参考訳): 本研究では,Large Language Models(LLM)を,フリーランスソフトウェア開発を含む実世界のタスクの自律エージェントとして検討する。
本研究は,経済データから得られたフリーランスプログラミングおよびデータ解析タスクのLCMを評価するための新しいベンチマークを提案する。
ジョブ投稿のKaggle Freelancerデータセットから生成された合成タスクを用いて、ベンチマークを構築し、すべてのジョブ価格をUSD(中央固定プロジェクト価格約250ドル、平均306ドル)に標準化した。
各タスクには構造化された入出力テストケースと推定価格タグが付属し、自動的正当性チェックと金銭的業績評価を可能にする。
このアプローチはOpenAIの最近のSWE-Lancerベンチマーク(100万ドル相当のリアルUpworkタスク)にインスパイアされたものだ。
しかし,本フレームワークは,プログラム的にテスト可能なタスクと予測値を用いた評価を簡略化し,高いスケーラビリティと反復性を実現する。
本ベンチマークでは,Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5, Mistralの4種類のLLMを評価した。
本稿では,各モデルの精度(タスク成功率,テストケース通過率)と,その達成した「フリーランス利益」(解決タスクの価格)を報告する。
以上の結果から,Claude 3.5 Haikuは$1.22M(1億2200万ドル),GPT-4o-mini(1億4900万ドル),Qwen 2.5(1億3300万ドル),Mistral(0億7千万ドル)の順で最高の成績を示した。
タスク毎のエラーの分布を分析し、最強のモデルが最も多くのタスクを解決し、どんなプロジェクトでも完全に失敗することは滅多にないことを観察する。
フリーランス開発者としてのAIの実現性、自動ベンチマークアプローチの利点と限界、構造化タスクのパフォーマンスと現実のフリーランスジョブの真の複雑さとのギャップについて論じる。
関連論文リスト
- GeoBenchX: Benchmarking LLMs for Multistep Geospatial Tasks [0.0]
Sonnet 3.5 と GPT-4o は最高性能を達成し、Claude モデルは解決可能なタスクに優れていた。
一般的な誤りには、幾何学的関係の誤解、時代遅れの知識への依存、非効率的なデータ操作などがある。
論文 参考訳(メタデータ) (2025-03-23T16:20:14Z) - SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering? [0.0]
SWE-LancerはUpworkの1,400以上のフリーランスソフトウェアエンジニアリングタスクのベンチマークである。
独立したタスクは、経験豊富なソフトウェアエンジニアによって三度検証されたエンドツーエンドのテストによって評価される。
モデル性能を評価し、フロンティアモデルが依然としてほとんどのタスクを解決できないことを発見した。
論文 参考訳(メタデータ) (2025-02-17T18:41:16Z) - Unearthing Skill-Level Insights for Understanding Trade-Offs of Foundation Models [61.467781476005435]
集約精度を検査する際には、スキルワイドのパフォーマンスが不明確になる。
モデル生成論理を検査することで,任意の評価事例に関連する基礎的スキルを復元する自動手法を提案する。
私たちのスキルスライスとフレームワークは、モデル評価の新しい道を開き、スキル固有の分析を活用して、よりきめ細やかで実用的なモデル機能の理解を解き放ちます。
論文 参考訳(メタデータ) (2024-10-17T17:51:40Z) - Towards a Realistic Long-Term Benchmark for Open-Web Research Agents [0.21847754147782888]
ファイナンスやコンサルティングにおいて日常的に行われている,実世界のオープンウェブ研究課題に対するエージェントの評価を行った。
我々は、o1-preview、GPT-4o、Claude-3.5 Sonnet、Llama 3.1 (405b)、GPT-4o-miniといったエージェントアーキテクチャを構築し、テストした。
LLM全体では、サブタスクをサブエージェントに委譲する機能を備えたReActアーキテクチャが最もよく機能した。
論文 参考訳(メタデータ) (2024-09-23T11:08:04Z) - MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans? [64.00906432603817]
MME-RealWorldは、これまでで最大の手動アノテーション付きベンチマークであり、最も高解像度で、現実世界のアプリケーションに焦点を当てている。
私たちの結果は、最も先進的なモデルでさえベンチマークに苦戦していることを示しています。
論文 参考訳(メタデータ) (2024-08-23T17:59:51Z) - Mastering the Task of Open Information Extraction with Large Language
Models and Consistent Reasoning Environment [52.592199835286394]
オープン情報抽出(OIE)は、自然文から客観的な構造化された知識を抽出することを目的としている。
大規模言語モデル(LLM)は、テキスト内学習能力に優れています。
論文 参考訳(メタデータ) (2023-10-16T17:11:42Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - FLM-101B: An Open LLM and How to Train It with $100K Budget [63.244403881531035]
その結果,FLM-101Bは,予算1万ドルで成長戦略を訓練し,浮動小数点演算の10%に過ぎず,ベースラインのパフォーマンスの80%に達することがわかった。
先進的なトレーニングに関するさらなる研究は、コストを削減し、グリーンAIを促進することで、コミュニティに恩恵をもたらすと信じている。
論文 参考訳(メタデータ) (2023-09-07T17:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。