論文の概要: SE Arena: Benchmarking Software Engineering Chatbots with Iterative Interactions
- arxiv url: http://arxiv.org/abs/2502.01860v1
- Date: Mon, 03 Feb 2025 22:19:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:05:01.112576
- Title: SE Arena: Benchmarking Software Engineering Chatbots with Iterative Interactions
- Title(参考訳): SE Arena: 反復的なインタラクションを備えたソフトウェアエンジニアリングチャットボットのベンチマーク
- Authors: Zhimin Zhao,
- Abstract要約: ソフトウェアエンジニアリング活動の基盤モデル(FM)を評価するために設計されたインタラクティブなプラットフォームであるSE Arenaを紹介する。
SE Arenaは透明でオープンソースのリーダーボードを提供し、マルチラウンドの会話チャットボットをサポートし、エンドツーエンドのモデル比較を可能にする。
本稿では,SE Arenaの設計と機能について概説し,ソフトウェア工学におけるFMの評価と実用化を前進させる可能性を強調した。
- 参考スコア(独自算出の注目度): 0.7511028207083381
- License:
- Abstract: Foundation models (FMs), particularly large language models (LLMs), have shown significant promise in various software engineering (SE) tasks, including code generation, debugging, and requirement refinement. Despite these advances, existing evaluation frameworks are insufficient for assessing model performance in iterative, context-rich workflows characteristic of SE activities. To address this limitation, we introduce SE Arena, an interactive platform designed to evaluate SE-focused chatbots. SE Arena provides a transparent, open-source leaderboard, supports multi-round conversational workflows, and enables end-to-end model comparisons. Moreover, SE Arena incorporates a new feature called RepoChat, which automatically injects repository-related context (e.g., issues, commits, pull requests) into the conversation, further aligning evaluations with real-world development processes. This paper outlines the design and capabilities of SE Arena, emphasizing its potential to advance the evaluation and practical application of FMs in software engineering.
- Abstract(参考訳): ファンデーションモデル(FM)、特に大きな言語モデル(LLM)は、コード生成、デバッグ、要求の洗練を含む様々なソフトウェアエンジニアリング(SE)タスクにおいて大きな可能性を示している。
これらの進歩にもかかわらず、既存の評価フレームワークは、SEアクティビティ特有の反復的でコンテキストに富んだワークフローにおいて、モデルパフォーマンスを評価するには不十分である。
この制限に対処するため,SEにフォーカスしたチャットボットの評価を目的とした対話型プラットフォームであるSE Arenaを紹介した。
SE Arenaは透明でオープンソースのリーダボードを提供し、複数ラウンドの会話ワークフローをサポートし、エンドツーエンドのモデル比較を可能にする。
さらに、SE ArenaにはRepoChatという新機能が組み込まれており、リポジトリ関連のコンテキスト(イシュー、コミット、プルリクエストなど)を自動的に会話に注入し、実際の開発プロセスと評価を整合させる。
本稿では,SE Arenaの設計と機能について概説し,ソフトウェア工学におけるFMの評価と実用化を前進させる可能性を強調した。
関連論文リスト
- Conversation Routines: A Prompt Engineering Framework for Task-Oriented Dialog Systems [0.21756081703275998]
本研究では,Large Language Models (LLMs) を用いたタスク指向対話システムの開発のための,構造化されたプロンプトエンジニアリングフレームワークである Conversation Routines (CR) を紹介する。
提案したCRフレームワークは,自然言語仕様による会話エージェントシステム(CAS)の開発を可能にする。
このフレームワークの有効性を,Train Booking SystemとInteractive Ticket Copilotという2つの概念実証実装を通じて実証する。
論文 参考訳(メタデータ) (2025-01-20T17:19:02Z) - Constraining Participation: Affordances of Feedback Features in Interfaces to Large Language Models [49.74265453289855]
大規模言語モデル(LLM)は、コンピュータ、Webブラウザ、ブラウザベースのインターフェースによるインターネット接続を持つ人なら誰でも利用できるようになった。
本稿では,ChatGPTインタフェースにおける対話型フィードバック機能の可能性について検討し,ユーザ入力の形状やイテレーションへの参加について分析する。
論文 参考訳(メタデータ) (2024-08-27T13:50:37Z) - BotEval: Facilitating Interactive Human Evaluation [21.99269491969255]
BotEvalは評価プロセスの一部として人間とボットのインタラクションを可能にする評価ツールキットである。
我々は、評価プロセスの一部として、人間とボットの対話を可能にすることに焦点を当てた、カスタマイズが容易でオープンソースの評価ツールキットBotEvalを開発した。
論文 参考訳(メタデータ) (2024-07-25T04:57:31Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - OntoChat: a Framework for Conversational Ontology Engineering using Language Models [0.3141085922386211]
textbfOntoChatは、要求の誘導、分析、テストをサポートする会話エンジニアリングのためのフレームワークである。
音楽メタオントロジーのエンジニアリングを再現し,ユーザから各コンポーネントの有効性に関する予備的な指標を収集することにより,OntoChatを評価する。
論文 参考訳(メタデータ) (2024-03-09T14:04:06Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - Conversational Process Modeling: Can Generative AI Empower Domain
Experts in Creating and Redesigning Process Models? [0.0]
この研究は、会話プロセスモデリングをサポートする既存のチャットボットの体系的な分析を提供する。
会話プロセスモデリングに関する文献レビューが行われ、それによって会話プロセスモデリングのアプリケーションシナリオの分類がなされる。
プロセスモデルの完全性と正確性に関して,AI駆動型チャットボットの出力に評価手法を適用した。
論文 参考訳(メタデータ) (2023-04-19T06:54:14Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。