Fugu-MT 論文翻訳(概要): MARE: Multi-Agents Collaboration Framework for Requirements Engineering

論文の概要: MARE: Multi-Agents Collaboration Framework for Requirements Engineering

arxiv url: http://arxiv.org/abs/2405.03256v1
Date: Mon, 6 May 2024 08:24:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-07 14:25:38.985509
Title: MARE: Multi-Agents Collaboration Framework for Requirements Engineering
Title（参考訳）: MARE:要求工学のためのマルチエージェントコラボレーションフレームワーク
Authors: Dongming Jin, Zhi Jin, Xiaohong Chen, Chunhui Wang,
Abstract要約: 我々は,要求工学(RE)プロセス全体を通して,大規模言語モデル(LLM)間の協調を利用するMAREという革新的なフレームワークを提案する。 MarE氏はREプロセスを4つのタスクに分けている。我々は、MAREがより正確な要求モデルを生成し、最先端のアプローチを15.4%上回ることを示す。
参考スコア（独自算出の注目度）: 18.633506097386185
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Requirements Engineering (RE) is a critical phase in the software development process that generates requirements specifications from stakeholders' needs. Recently, deep learning techniques have been successful in several RE tasks. However, obtaining high-quality requirements specifications requires collaboration across multiple tasks and roles. In this paper, we propose an innovative framework called MARE, which leverages collaboration among large language models (LLMs) throughout the entire RE process. MARE divides the RE process into four tasks: elicitation, modeling, verification, and specification. Each task is conducted by engaging one or two specific agents and each agent can conduct several actions. MARE has five agents and nine actions. To facilitate collaboration between agents, MARE has designed a workspace for agents to upload their generated intermediate requirements artifacts and obtain the information they need. We conduct experiments on five public cases, one dataset, and four new cases created by this work. We compared MARE with three baselines using three widely used metrics for the generated requirements models. Experimental results show that MARE can generate more correct requirements models and outperform the state-of-the-art approaches by 15.4%. For the generated requirements specifications, we conduct a human evaluation in three aspects and provide insights about the quality
Abstract（参考訳）: 要件工学(RE)は、ステークホルダーのニーズから要求仕様を生成するソフトウェア開発プロセスにおいて重要なフェーズである。近年,いくつかのREタスクにおいてディープラーニング技術が成功している。しかし、高品質な要求仕様を得るには、複数のタスクと役割をまたいで協調する必要があります。本稿では,大規模な言語モデル(LLM)間の協調をREプロセス全体を通して活用する,MAREと呼ばれる革新的なフレームワークを提案する。 MAREはREプロセスを4つのタスクに分割する。それぞれのタスクは1つまたは2つの特定のエージェントによって実行され、各エージェントはいくつかのアクションを実行することができる。 MAREには5つのエージェントと9つのアクションがある。エージェント間のコラボレーションを容易にするため、MAREはエージェントが生成した中間要件のアーティファクトをアップロードし、必要な情報を取得するためのワークスペースを設計した。この研究によって作成された5つのパブリックケース、1つのデータセット、4つの新しいケースで実験を行います。生成した要求モデルに対して,3つの広く使用されている指標を用いて,MAREを3つの基準線と比較した。実験の結果、MAREはより正確な要求モデルを生成し、最先端のアプローチを15.4%上回る結果となった。生成された要求仕様について、3つの側面で人的評価を行い、品質に関する洞察を提供する。

関連論文リスト

Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。 4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文参考訳（メタデータ） (2025-08-05T12:52:09Z)
AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。 AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文参考訳（メタデータ） (2025-05-22T17:31:10Z)
R&D-Agent: An LLM-Agent Framework Towards Autonomous Data Science [70.1638335489284]
高レベルの機械学習エンジニアリングタスクは、労働集約的で反復的である。機械学習プロセスを形式化する包括的で分離されたフレームワークであるR&D-Agentを紹介します。 R&D-AgentはMLEを2つのフェーズと6つのコンポーネントに定義し、MLEのエージェント設計を原則としてテスト可能なプロセスに変える。
論文参考訳（メタデータ） (2025-05-20T06:07:00Z)
How Effective are Generative Large Language Models in Performing Requirements Classification? [4.429729688079712]
本研究では,2次および複数クラスの要件分類を行う3つの生成的大規模言語モデル(LLM)の有効性について検討した。我々の研究は、素早い設計やLLMアーキテクチャといった要因は普遍的に重要であるが、データセットのバリエーションなどの要因は、分類作業の複雑さに応じて、より状況に影響を及ぼすと結論付けている。
論文参考訳（メタデータ） (2025-04-23T14:41:11Z)
MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents [59.825725526176655]
大規模言語モデル(LLM)は、自律的なエージェントとして顕著な能力を示している。既存のベンチマークでは、単一エージェントタスクにフォーカスするか、狭いドメインに限定されており、マルチエージェントのコーディネーションと競合のダイナミクスを捉えていない。多様な対話シナリオにまたがってLLMベースのマルチエージェントシステムを評価するためのベンチマークであるMultiAgentBenchを紹介する。
論文参考訳（メタデータ） (2025-03-03T05:18:50Z)
MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文参考訳（メタデータ） (2025-02-20T12:28:23Z)
Code Review Automation Via Multi-task Federated LLM -- An Empirical Study [4.8342038441006805]
本研究は,2つの逐次法,1つの並列法,2つの累積法を含む,マルチタスクトレーニングのための5つの簡単な手法について検討した。その結果,フェデレートされたLLM(FedLLM)をコードレビューのマルチタスクのユースケースで逐次トレーニングすることは,タスク毎に個別のモデルをトレーニングするよりも,時間,計算,パフォーマンスの指標の面で効率が低いことが示唆された。
論文参考訳（メタデータ） (2024-12-20T08:46:46Z)
CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文参考訳（メタデータ） (2024-09-03T17:54:40Z)
AI based Multiagent Approach for Requirements Elicitation and Analysis [3.9422957660677476]
本研究では,大規模言語モデル(LLM)を用いた要求分析タスクの自動化の有効性を実証的に検討する。我々は,GPT-3.5,GPT-4 Omni,LLaMA3-70,Mixtral-8Bの4つのモデルをデプロイし,実世界の4つのプロジェクトにおける要件を分析する実験を行った。予備的な結果は,各モデルにおけるタスク完了の顕著な変化を示している。
論文参考訳（メタデータ） (2024-08-18T07:23:12Z)
MAO: A Framework for Process Model Generation with Multi-Agent Orchestration [12.729855942941724]
本稿では,マルチエージェントオーケストレーション(MAO)を用いたプロセスモデルの自動生成フレームワークについて検討する。大きな言語モデルは幻覚を起こす傾向があるため、エージェントはプロセスモデルにおける意味幻覚をレビューし、修復する必要がある。実験により、我々のフレームワークが生成したプロセスモデルは、4つの異なるデータセットで手動モデリングを89%、61%、52%、75%以上上回っていることが示された。
論文参考訳（メタデータ） (2024-08-04T03:32:17Z)
SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。 FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文参考訳（メタデータ） (2024-03-23T14:04:48Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
Requirements' Characteristics: How do they Impact on Project Budget in a Systems Engineering Context? [3.2872885101161318]
自然言語要求(NLR)の品質の制御と保証は困難である。スウェーデン交通庁 (STA) と共同で, 要件の特性が変更要求や予算変更に与える影響について検討した。
論文参考訳（メタデータ） (2023-10-02T17:53:54Z)
Empirical Evaluation of ChatGPT on Requirements Information Retrieval Under Zero-Shot Setting [12.733403458944972]
要求情報検索タスクにおいてChatGPTの性能を実証的に評価する。ゼロショット設定では、ChatGPTが要求情報を検索する有望な能力を示す。
論文参考訳（メタデータ） (2023-04-25T04:09:45Z)
Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners [74.92558307689265]
専門家グループ("スクワッド")にモジュール化された新しいモデルであるMod-Squadを提案する。単一モデルのトレーニング中に、このマッチングプロセスを最適化する。 13の視覚タスクを持つタスクノミーデータセットと、5つの視覚タスクを持つPASCAL-Contextデータセットの実験は、我々のアプローチの優位性を示している。
論文参考訳（メタデータ） (2022-12-15T18:59:52Z)
Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文参考訳（メタデータ） (2021-12-02T18:59:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。