論文の概要: AI based Multiagent Approach for Requirements Elicitation and Analysis
- arxiv url: http://arxiv.org/abs/2409.00038v1
- Date: Sun, 18 Aug 2024 07:23:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-08 15:40:57.112212
- Title: AI based Multiagent Approach for Requirements Elicitation and Analysis
- Title(参考訳): 要求の緩和と分析のためのAIに基づくマルチエージェントアプローチ
- Authors: Malik Abdul Sami, Muhammad Waseem, Zheying Zhang, Zeeshan Rasheed, Kari Systä, Pekka Abrahamsson,
- Abstract要約: 本研究では,大規模言語モデル(LLM)を用いた要求分析タスクの自動化の有効性を実証的に検討する。
我々は,GPT-3.5,GPT-4 Omni,LLaMA3-70,Mixtral-8Bの4つのモデルをデプロイし,実世界の4つのプロジェクトにおける要件を分析する実験を行った。
予備的な結果は,各モデルにおけるタスク完了の顕著な変化を示している。
- 参考スコア(独自算出の注目度): 3.9422957660677476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Requirements Engineering (RE) plays a pivotal role in software development, encompassing tasks such as requirements elicitation, analysis, specification, and change management. Despite its critical importance, RE faces challenges including communication complexities, early-stage uncertainties, and accurate resource estimation. This study empirically investigates the effectiveness of utilizing Large Language Models (LLMs) to automate requirements analysis tasks. We implemented a multi-agent system that deploys AI models as agents to generate user stories from initial requirements, assess and improve their quality, and prioritize them using a selected technique. In our implementation, we deployed four models, namely GPT-3.5, GPT-4 Omni, LLaMA3-70, and Mixtral-8B, and conducted experiments to analyze requirements on four real-world projects. We evaluated the results by analyzing the semantic similarity and API performance of different models, as well as their effectiveness and efficiency in requirements analysis, gathering users' feedback on their experiences. Preliminary results indicate notable variations in task completion among the models. Mixtral-8B provided the quickest responses, while GPT-3.5 performed exceptionally well when processing complex user stories with a higher similarity score, demonstrating its capability in deriving accurate user stories from project descriptions. Feedback and suggestions from the four project members further corroborate the effectiveness of LLMs in improving and streamlining RE phases.
- Abstract(参考訳): 要件工学(RE)はソフトウェア開発において重要な役割を担い、要求の導出、分析、仕様、変更管理といったタスクを包含する。
その重要な重要性にもかかわらず、REはコミュニケーションの複雑さ、初期段階の不確実性、正確なリソース推定といった課題に直面している。
本研究では,大規模言語モデル(LLM)を用いた要求分析タスクの自動化の有効性を実証的に検討する。
エージェントとしてAIモデルをデプロイし、初期要件からユーザストーリを生成し、品質を評価し、改善し、選択したテクニックで優先順位付けするマルチエージェントシステムを実装した。
本実装では,GPT-3.5,GPT-4 Omni,LLaMA3-70,Mixtral-8Bの4つのモデルをデプロイし,実世界の4つのプロジェクトにおける要件分析実験を行った。
本研究では,異なるモデルのセマンティックな類似性やAPI性能を解析し,要求分析の有効性と効率性を評価し,ユーザの経験に対するフィードバックを収集した。
予備的な結果は,各モデルにおけるタスク完了の顕著な変化を示している。
Mixtral-8Bは最も高速な応答を提供する一方、GPT-3.5は複雑なユーザストーリーを高い類似度スコアで処理し、プロジェクト記述から正確なユーザストーリーを抽出する能力を示した。
4人のプロジェクトメンバーからのフィードバックと提案は、REフェーズの改善と合理化におけるLLMの有効性をさらに裏付けます。
関連論文リスト
- Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - SWE-Search: Enhancing Software Agents with Monte Carlo Tree Search and Iterative Refinement [18.84439000902905]
SWE-Searchは、MCTS(Monte Carlo Tree Search)と自己改善機構を統合し、ソフトウェアエージェントのパフォーマンスを向上させるマルチエージェントフレームワークである。
本研究は,複雑でダイナミックなソフトウェア工学環境において,エージェント推論と計画を強化する自己評価型検索技術の可能性を強調した。
論文 参考訳(メタデータ) (2024-10-26T22:45:56Z) - Large Language Model Evaluation Via Multi AI Agents: Preliminary results [3.8066447473175304]
本稿では,多言語モデル(LLM)の性能評価と比較を目的とした,新しいマルチエージェントAIモデルを提案する。
我々のモデルは8つの異なるAIエージェントで構成されており、それぞれが異なる先進言語モデルから共通の記述に基づいてコードを取得する責任がある。
我々はHumanEvalベンチマークを検証エージェントに統合し、生成されたコードのパフォーマンスを評価し、それぞれの能力と効率について洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T10:06:04Z) - Enhancing Robotic Manipulation with AI Feedback from Multimodal Large
Language Models [41.38520841504846]
大規模言語モデル(LLM)は、画像入力から意思決定のガイドまで、自動的な好みフィードバックを提供する。
本研究では,ロボット操作作業における軌跡映像の理解が可能なマルチモーダルLLMであるCriticGPTを訓練する。
アルゴリズムの選好精度を実験的に評価すると、新しいタスクに対する効果的な一般化能力が示される。
Meta-Worldタスクのパフォーマンスは、CriticGPTの報酬モデルが、最先端の事前訓練された表現モデルに基づいて報酬を越え、ポリシー学習を効率的に導くことを示している。
論文 参考訳(メタデータ) (2024-02-22T03:14:03Z) - Large Language Models as Automated Aligners for benchmarking
Vision-Language Models [48.4367174400306]
VLM(Vision-Language Models)は新しいレベルの高度化に達し、複雑な認知と推論タスクの実行において顕著な能力を示している。
既存の評価ベンチマークは、厳密で手作りのデータセットを主に頼りにしており、人為的なモデルと人間の知性との整合性を評価する上で、重大な制限に直面している。
本研究では,LLMを有能なキュレーションとして探求し,自動データキュレーションとアセスメントによってVLMと人間の知性と価値のアライメントを測定するAuto-Benchを用いて,その限界に対処する。
論文 参考訳(メタデータ) (2023-11-24T16:12:05Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - GPT-Based Models Meet Simulation: How to Efficiently Use Large-Scale
Pre-Trained Language Models Across Simulation Tasks [0.0]
本稿では,科学シミュレーションにおける大規模事前学習言語モデルの利用に関する最初の研究である。
最初の課題は参加者の関与を促進する概念モデルの構造を説明することである。
第2のタスクはシミュレーション出力の要約に重点を置いており、モデルユーザーが望ましいシナリオを識別できるようにしている。
第3の課題は、シミュレーションの可視化の洞察をテキストで伝えることによって、シミュレーションプラットフォームへのアクセシビリティの拡大を目指している。
論文 参考訳(メタデータ) (2023-06-21T15:42:36Z) - Zero-shot Item-based Recommendation via Multi-task Product Knowledge
Graph Pre-Training [106.85813323510783]
本稿ではゼロショットアイテムベース勧告(ZSIR)タスクのための新しいパラダイムを提案する。
製品知識グラフ(PKG)のモデルを事前トレーニングして、PLMからアイテム機能を洗練します。
我々は,PKGにおける多型関係,アイテムジェネリック情報と関係のセマンティックな相違,PKGから下流ZSIRタスクへのドメイン差といった,PKG事前学習の課題を3つ挙げる。
論文 参考訳(メタデータ) (2023-05-12T17:38:24Z) - Empirical Evaluation of ChatGPT on Requirements Information Retrieval
Under Zero-Shot Setting [12.733403458944972]
要求情報検索タスクにおいてChatGPTの性能を実証的に評価する。
ゼロショット設定では、ChatGPTが要求情報を検索する有望な能力を示す。
論文 参考訳(メタデータ) (2023-04-25T04:09:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。