論文の概要: QUARE: Multi-Agent Negotiation for Balancing Quality Attributes in Requirements Engineering
- arxiv url: http://arxiv.org/abs/2603.11890v1
- Date: Thu, 12 Mar 2026 13:03:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.086845
- Title: QUARE: Multi-Agent Negotiation for Balancing Quality Attributes in Requirements Engineering
- Title(参考訳): QUIRE:要求工学における品質属性のバランスをとるためのマルチエージェントネゴシエーション
- Authors: Haowei Cheng, Milhan Kim, Foutse Khomh, Teeradaj Racharak, Nobukazu Yoshioka, Naoyasu Ubayashi, Hironori Washizaki,
- Abstract要約: QUIRE(Quality-Aware Requirements Engineering)は、要求分析を構造化交渉として定式化するマルチエージェントフレームワークである。
確立されたREベンチマーク(MARE, iReDev)と産業用自動運転仕様の5つのケーススタディを提示する。
- 参考スコア(独自算出の注目度): 5.798725202578518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Requirements engineering (RE) is critical to software success, yet automating it remains challenging because multiple, often conflicting quality attributes must be balanced while preserving stakeholder intent. Existing Large-Language-Model (LLM) approaches predominantly rely on monolithic reasoning or implicit aggregation, limiting their ability to systematically surface and resolve cross-quality conflicts. We present QUARE (Quality-Aware Requirements Engineering), a multi-agent framework that formulates requirements analysis as structured negotiation among five quality-specialized agents (Safety, Efficiency, Green, Trustworthiness, and Responsibility), coordinated by a dedicated orchestrator. QUARE introduces a dialectical negotiation protocol that explicitly exposes inter-quality conflicts and resolves them through iterative proposal, critique, and synthesis. Negotiated outcomes are transformed into structurally sound KAOS goal models via topology validation and verified against industry standards through retrieval-augmented generation (RAG). We evaluate QUARE on five case studies drawn from established RE benchmarks (MARE, iReDev) and an industrial autonomous-driving specification, spanning safety-critical, financial, and information-system domains. Results show that QUARE achieves 98.2% compliance coverage (+105% over both baselines), 94.9% semantic preservation (+2.3 percentage points over the best baseline), and high verifiability (4.96/5.0), while generating 25-43% more requirements than existing multi-agent RE frameworks. These findings suggest that effective RE automation depends less on model scale than on principled architectural decomposition, explicit interaction protocols, and automated verification.
- Abstract(参考訳): 要件エンジニアリング(RE)はソフトウェアの成功に不可欠だが、ステークホルダの意図を維持しながら、しばしば矛盾する品質特性のバランスを取る必要があるため、自動化は依然として困難である。
既存のLLM(Large-Language-Model)アプローチは、モノリシックな推論や暗黙的な集約に大きく依存する。
本報告では, 品質特化エージェント(安全, 効率, グリーン, 信頼性, 責任)間の構造交渉として要求分析を定式化する多エージェントフレームワークであるQUIRE(Quality-Aware Requirements Engineering)について述べる。
QUIREは、品質間の紛争を明確に公開し、反復的な提案、批判、合成を通じてそれらを解決する弁証的交渉プロトコルを導入している。
交渉結果は、トポロジー検証を通じて構造的に健全なKAOS目標モデルに変換され、検索強化世代(RAG)を介して業界標準に対して検証される。
我々は、確立されたREベンチマーク(MARE, iReDev)と、安全クリティカル、財務、情報システムドメインにまたがる産業用自動運転仕様から得られた5つのケーススタディについて、QUIREを評価した。
その結果、QUIREは98.2%のコンプライアンスカバレッジ(両方のベースラインで+105%)、94.9%のセマンティック保存(ベストベースラインで+2.3%)、高い検証可能性(4.96/5.0)を実現し、既存のマルチエージェントREフレームワークよりも25-43%多くの要求を発生している。
これらの結果は、効果的なRE自動化は、原則化されたアーキテクチャの分解、明示的なインタラクションプロトコル、自動検証よりもモデルスケールに依存していないことを示唆している。
関連論文リスト
- MC-Search: Evaluating and Enhancing Multimodal Agentic Search with Structured Long Reasoning Chains [79.14584837105808]
MC-Searchは5つの代表的推論構造にまたがる長いステップワイドなアノテート推論チェーンを持つエージェントMM-RAGの最初のベンチマークである。
回答精度以外にも、MC-Searchは、品質、段階的検索、計画精度を推論するための新しいプロセスレベルメトリクスを導入している。
エージェントMM-RAGパイプラインを統一的に開発することにより、6つのMLLMをベンチマークし、過剰検索や過度検索、モダリティミスアライメント計画などの体系的な問題を明らかにする。
論文 参考訳(メタデータ) (2026-03-01T02:25:57Z) - Agentic Proposing: Enhancing Large Language Model Reasoning via Compositional Skill Synthesis [10.951981109673119]
Agentic Proposingは、問題合成をゴール駆動シーケンシャルな意思決定プロセスとしてモデル化するフレームワークである。
数学、コーディング、科学にまたがる高精度で検証可能な訓練軌道を生成する。
11,000個の合成軌道で訓練された30Bソルバは、AIME25で91.6%の精度を達成する。
論文 参考訳(メタデータ) (2026-02-03T09:02:53Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Making LLMs Reliable When It Matters Most: A Five-Layer Architecture for High-Stakes Decisions [51.56484100374058]
現在の大規模言語モデル(LLM)は、実行前にアウトプットをチェックできるが、不確実な結果を伴う高い戦略決定には信頼性が低い検証可能な領域で優れている。
このギャップは、人間と人工知能(AI)システムの相互認知バイアスによって引き起こされ、そのセクターにおける評価と投資の持続可能性の保証を脅かす。
本報告では、7つのフロンティアグレードLDMと3つの市場向けベンチャーヴィグネットの時間的圧力下での系統的質的評価から生まれた枠組みについて述べる。
論文 参考訳(メタデータ) (2025-11-10T22:24:21Z) - RAGalyst: Automated Human-Aligned Agentic Evaluation for Domain-Specific RAG [0.0]
Retrieval-Augmented Generation (RAG) は、LLM(Large Language Models)を実際に証明するための重要な手法である。
既存の評価フレームワークは多くの場合、ドメイン固有のニュアンスをキャプチャできないメトリクスに依存します。
本稿では,RAGalystについて紹介する。RAGalystは,ドメイン固有のRAGシステムの厳密な評価を目的とした,人力による自動エージェントフレームワークである。
論文 参考訳(メタデータ) (2025-11-06T16:22:52Z) - RAISE: A Unified Framework for Responsible AI Scoring and Evaluation [0.0]
RAISE(Responsible AI Scoring and Evaluation)は、4次元にわたるモデルパフォーマンスを定量化し、それらを単一のResponsibility Scoreに集約する統合フレームワークである。
トランスフォーマーは非常に高い環境コストで説明可能性と公正性に優れ、Tabular ResNetはバランスの取れたプロファイルを提供した。
論文 参考訳(メタデータ) (2025-10-21T12:15:13Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Automated Quality Assessment for LLM-Based Complex Qualitative Coding: A Confidence-Diversity Framework [0.23872611575805827]
モデル信頼度とモデル間コンセンサス(外部エントロピー)を組み合わせた二重信号品質評価フレームワークを開発する。
法的な理由づけ、政治的分析、医学的分類書にまたがって評価する。
このフレームワークは、広範に二重符号化することなく定性的なコーディングをスケールする、原則化された、ドメインに依存しない品質保証メカニズムを提供する。
論文 参考訳(メタデータ) (2025-08-28T06:25:07Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。