Fugu-MT 論文翻訳(概要): SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?

論文の概要: SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?

arxiv url: http://arxiv.org/abs/2502.12115v1
Date: Mon, 17 Feb 2025 18:41:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:45.480185
Title: SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?
Title（参考訳）: SWE-Lancer: Frontier LLMsは、現実世界のフリーランスソフトウェアエンジニアリングから100万ドルを得られるか?
Authors: Samuel Miserendino, Michele Wang, Tejal Patwardhan, Johannes Heidecke,
Abstract要約: SWE-LancerはUpworkの1,400以上のフリーランスソフトウェアエンジニアリングタスクのベンチマークである。独立したタスクは、経験豊富なソフトウェアエンジニアによって三度検証されたエンドツーエンドのテストによって評価される。モデル性能を評価し、フロンティアモデルが依然としてほとんどのタスクを解決できないことを発見した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce SWE-Lancer, a benchmark of over 1,400 freelance software engineering tasks from Upwork, valued at \$1 million USD total in real-world payouts. SWE-Lancer encompasses both independent engineering tasks--ranging from \$50 bug fixes to \$32,000 feature implementations--and managerial tasks, where models choose between technical implementation proposals. Independent tasks are graded with end-to-end tests triple-verified by experienced software engineers, while managerial decisions are assessed against the choices of the original hired engineering managers. We evaluate model performance and find that frontier models are still unable to solve the majority of tasks. To facilitate future research, we open-source a unified Docker image and a public evaluation split, SWE-Lancer Diamond (https://github.com/openai/SWELancer-Benchmark). By mapping model performance to monetary value, we hope SWE-Lancer enables greater research into the economic impact of AI model development.
Abstract（参考訳）: 私たちは、Upworkから1400以上のフリーランスソフトウェアエンジニアリングタスクのベンチマークであるSWE-Lancerを紹介します。 SWE-Lancerは、50ドルのバグ修正から32,000ドルの機能実装まで、独立したエンジニアリングタスクと、モデルが技術的な実装提案を選択する管理タスクの両方を包含している。独立したタスクは、経験豊富なソフトウェアエンジニアによって3倍に検証されたエンドツーエンドテストで評価され、管理上の決定は、元の雇用されたエンジニアリングマネージャの選択に対して評価される。モデル性能を評価し、フロンティアモデルが依然としてほとんどのタスクを解決できないことを発見した。今後の研究を容易にするため、Dockerイメージの統一と、公開評価分割であるSWE-Lancer Diamond(https://github.com/openai/SWELancer-Benchmark)をオープンソース化しました。モデルのパフォーマンスを金銭的価値にマッピングすることで、SWE-LancerがAIモデル開発における経済的影響をより深く研究できることを期待する。

関連論文リスト

Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs [19.766885088032932]
ソフトウェアエンジニアリング(SWE)は、次世代のLLMエージェントにとって重要なテストベッドとして登場した。既存のデータセットのほとんどは、わずか数千のGitHubソースインスタンスに制限されている。 SWEデータセットのボリュームと多様性の両方を体系的にスケールするインクリメンタルな自動データキュレーションパイプラインを提案する。
論文参考訳（メタデータ） (2025-06-24T03:53:36Z)
SWE-Dev: Building Software Engineering Agents with Training and Inference Scaling [39.53265893083118]
大規模言語モデル(LLM)は、会話による問題解決から、ツール使用に関わる現実的なタスクへの対処まで、急速に進歩している。この問題に対処するために、オープンソースのLLM上に構築されたSWEエージェントであるSWE-Devを提案する。 SWE-bench-Verifiedベンチマークの実験は、SWE-Devモデルが全てのオープンなSWEエージェントの中で最高のパフォーマンスを達成できることを示している。
論文参考訳（メタデータ） (2025-06-09T11:03:16Z)
Can AI Freelancers Compete? Benchmarking Earnings, Reliability, and Task Success at Scale [0.0]
我々は、Kaggleの投稿から生成される合成タスクを用いて、ベンチマークを構築する。各タスクには、構造化された入力テストケースと推定価格が伴う。本ベンチマークでは,現代LLM (3.5 Claude Haiku, GPT-4o-mini, Qwen 2.5, Mistral) の評価を行った。
論文参考訳（メタデータ） (2025-05-16T22:42:04Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs [96.68469559192846]
2つの異なる大きさのMoE大言語モデル(LLM)を提示する。 Ling-Liteは168億のパラメータと275億のアクティベートパラメータを持ち、Ling-Plusは2900億のパラメータと288億のアクティベートパラメータを持っている。本稿では,(1)モデルアーキテクチャとトレーニングプロセスの最適化,(2)トレーニング異常処理の洗練,(3)モデル評価効率の向上のための革新的な手法を提案する。
論文参考訳（メタデータ） (2025-03-07T04:43:39Z)
Pricing and Competition for Generative AI [3.8677478583601776]
われわれは、新しい生成AIソフトウェアの開発者がどのようにして技術をリリースし、価格を下げるかという課題を探求する。まず、ユーザコスト効率に関して、特定のタスクに対する2つの異なるモデルの比較を行う。次に、生成AIソフトウェアの価格問題を、2つの異なる企業間のゲームとしてモデル化する。
論文参考訳（メタデータ） (2024-11-04T22:52:45Z)
AI Cyber Risk Benchmark: Automated Exploitation Capabilities [0.24578723416255752]
自動ソフトウェアエクスプロイトにおけるAIモデルの能力とリスクを評価するための新しいベンチマークを導入する。 OpenAIのo1-previewやo1-mini、AnthropicのClaude-3.5-sonnet-20241022、Claude-3.5-sonnet-20240620など、主要な言語モデルの評価を行った。
論文参考訳（メタデータ） (2024-10-29T10:57:11Z)
Automating the Enterprise with Foundation Models [15.708380634503467]
ECLAIRは、最小限の人的監督でエンタープライズを自動化するシステムである。オープンな課題として、人間とAIのコラボレーション、検証、自己改善を取り上げます。
論文参考訳（メタデータ） (2024-05-03T23:25:15Z)
AutoCodeRover: Autonomous Program Improvement [8.66280420062806]
プログラムの改善を自律的に達成するために、GitHubの問題を解決する自動化アプローチを提案する。 AutoCodeRoverと呼ばれるアプローチでは、LLMは洗練されたコード検索機能と組み合わせられ、最終的にプログラムの変更やパッチにつながります。 SWE-bench-lite(300の現実のGitHubイシュー)の実験では、GitHubの問題を解決する効果が向上している(SWE-bench-liteでは19%)。
論文参考訳（メタデータ） (2024-04-08T11:55:09Z)
Power Hungry Processing: Watts Driving the Cost of AI Deployment? [74.19749699665216]
生成された多目的AIシステムは、機械学習(ML)モデルをテクノロジに構築するための統一的なアプローチを約束する。この「一般性」の野心は、これらのシステムが必要とするエネルギー量と放出する炭素量を考えると、環境に急激なコストがかかる。これらのモデルを用いて,代表的なベンチマークデータセット上で1,000の推論を行うのに必要なエネルギーと炭素の量として,デプロイメントコストを測定した。本稿は、多目的MLシステムの展開動向に関する議論から締めくくり、エネルギーと排出の面でコストの増大に対して、その実用性はより意図的に重み付けされるべきである、と警告する。
論文参考訳（メタデータ） (2023-11-28T15:09:36Z)
SWE-bench: Can Language Models Resolve Real-World GitHub Issues? [80.52201658231895]
SWE-benchは、実際のGitHub問題から引き出された2,294ドルのソフトウェアエンジニアリング問題と、人気のあるPythonリポジトリ12ドルのプルリクエストで構成される評価フレームワークである。我々は、最先端のプロプライエタリモデルと微調整モデルSWE-Llamaの両方が、最も単純な問題だけを解決できることを示します。
論文参考訳（メタデータ） (2023-10-10T16:47:29Z)
Model Share AI: An Integrated Toolkit for Collaborative Machine Learning Model Development, Provenance Tracking, and Deployment in Python [0.0]
モデル共有AI(AIMS)は、コラボレーティブモデル開発、モデル前駆者追跡、モデルデプロイメントを合理化するように設計された、使いやすいMLOpsプラットフォームである。 AIMSは、協調的なプロジェクト空間と、見当たらない評価データに基づいてモデル提出をランク付けする標準化されたモデル評価プロセスを備えている。 AIMSでは、Scikit-Learn、Keras、PyTorch、ONNXで構築されたMLモデルを、ライブREST APIや自動生成されたWebアプリにデプロイすることができる。
論文参考訳（メタデータ） (2023-09-27T15:24:39Z)
Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文参考訳（メタデータ） (2021-05-31T16:12:44Z)
Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文参考訳（メタデータ） (2020-07-21T14:17:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。