論文の概要: SE Arena: An Interactive Platform for Evaluating Foundation Models in Software Engineering
- arxiv url: http://arxiv.org/abs/2502.01860v3
- Date: Tue, 15 Apr 2025 05:34:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 19:16:12.498712
- Title: SE Arena: An Interactive Platform for Evaluating Foundation Models in Software Engineering
- Title(参考訳): SE Arena - ソフトウェア工学の基礎モデルを評価するインタラクティブプラットフォーム
- Authors: Zhimin Zhao,
- Abstract要約: ソフトウェアエンジニアリング活動の基盤モデル(FM)を評価するために設計されたインタラクティブなプラットフォームであるSE Arenaを紹介する。
SE Arenaは透明でオープンソースのリーダーボードを提供し、複数ラウンドの会話スコアをサポートし、エンドツーエンドのモデル比較を可能にする。
本稿では,SE Arenaの設計と機能について概説し,ソフトウェア工学におけるFMの評価と実用化を前進させる可能性を強調した。
- 参考スコア(独自算出の注目度): 0.7511028207083381
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models (FMs), particularly large language models (LLMs), have shown significant promise in various software engineering (SE) tasks, including code generation, debugging, and requirement refinement. Despite these advances, existing evaluation frameworks are insufficient for assessing model performance in iterative, context-rich workflows characteristic of SE activities. To address this limitation, we introduce SE Arena, an interactive platform designed to evaluate SE-focused chatbots. SE Arena provides a transparent, open-source leaderboard, supports multi-round conversational workflows, and enables end-to-end model comparisons. The platform introduces novel metrics, including the consistency score that measures model consistency through self-play matches. Moreover, SE Arena incorporates a new feature called RepoChat, which automatically injects repository-related context (e.g., issues, commits, pull requests) into the conversation, further aligning evaluations with real-world development processes. This paper outlines the design and capabilities of SE Arena, emphasizing its potential to advance the evaluation and practical application of FMs in software engineering.
- Abstract(参考訳): ファンデーションモデル(FM)、特に大きな言語モデル(LLM)は、コード生成、デバッグ、要求の洗練を含む様々なソフトウェアエンジニアリング(SE)タスクにおいて大きな可能性を示している。
これらの進歩にもかかわらず、既存の評価フレームワークは、SEアクティビティ特有の反復的でコンテキストに富んだワークフローにおいて、モデルパフォーマンスを評価するには不十分である。
この制限に対処するため,SEにフォーカスしたチャットボットの評価を目的とした対話型プラットフォームであるSE Arenaを紹介した。
SE Arenaは透明でオープンソースのリーダボードを提供し、複数ラウンドの会話ワークフローをサポートし、エンドツーエンドのモデル比較を可能にする。
プラットフォームには新しいメトリクスが導入されており、セルフプレイマッチを通じてモデルの一貫性を測定する一貫性スコアが含まれている。
さらに、SE ArenaにはRepoChatという新機能が組み込まれており、リポジトリ関連のコンテキスト(イシュー、コミット、プルリクエストなど)を自動的に会話に注入し、実際の開発プロセスと評価を整合させる。
本稿では,SE Arenaの設計と機能について概説し,ソフトウェア工学におけるFMの評価と実用化を前進させる可能性を強調した。
関連論文リスト
- SEAlign: Alignment Training for Software Engineering Agent [38.05820118124528]
コード生成モデルと現実世界のソフトウェア開発タスクのギャップを埋めるため、SEAlignを提案する。
我々は,HumanEvalFix,SWE-Bench-Lite,SWE-Bench-Verifiedの3つの標準エージェントベンチマークでSEAlignを評価した。
我々はSEAlignを使ってエージェントベースのソフトウェア開発プラットフォームを開発し、いくつかの小さなアプリケーションの開発をうまく自動化する。
論文 参考訳(メタデータ) (2025-03-24T08:59:21Z) - Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは、フィードバック駆動の実験プラットフォームを提供し、コスト効率とデータとモデルの両方のガイド付き洗練を可能にする。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [70.65910069412944]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - Model Share AI: An Integrated Toolkit for Collaborative Machine Learning
Model Development, Provenance Tracking, and Deployment in Python [0.0]
モデル共有AI(AIMS)は、コラボレーティブモデル開発、モデル前駆者追跡、モデルデプロイメントを合理化するように設計された、使いやすいMLOpsプラットフォームである。
AIMSは、協調的なプロジェクト空間と、見当たらない評価データに基づいてモデル提出をランク付けする標準化されたモデル評価プロセスを備えている。
AIMSでは、Scikit-Learn、Keras、PyTorch、ONNXで構築されたMLモデルを、ライブREST APIや自動生成されたWebアプリにデプロイすることができる。
論文 参考訳(メタデータ) (2023-09-27T15:24:39Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - ChatDev: Communicative Agents for Software Development [84.90400377131962]
ChatDevはチャットを利用したソフトウェア開発フレームワークで、特別なエージェントがコミュニケーション方法についてガイドされる。
これらのエージェントは、統一された言語ベースのコミュニケーションを通じて、設計、コーディング、テストフェーズに積極的に貢献する。
論文 参考訳(メタデータ) (2023-07-16T02:11:34Z) - Conversational Process Modeling: Can Generative AI Empower Domain
Experts in Creating and Redesigning Process Models? [0.0]
この研究は、会話プロセスモデリングをサポートする既存のチャットボットの体系的な分析を提供する。
会話プロセスモデリングに関する文献レビューが行われ、それによって会話プロセスモデリングのアプリケーションシナリオの分類がなされる。
プロセスモデルの完全性と正確性に関して,AI駆動型チャットボットの出力に評価手法を適用した。
論文 参考訳(メタデータ) (2023-04-19T06:54:14Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。