論文の概要: PD$^3$: A Project Duplication Detection Framework via Adapted Multi-Agent Debate
- arxiv url: http://arxiv.org/abs/2505.17492v1
- Date: Fri, 23 May 2025 05:38:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.840565
- Title: PD$^3$: A Project Duplication Detection Framework via Adapted Multi-Agent Debate
- Title(参考訳): PD$^3$:Adapted Multi-Agent Debateによるプロジェクト重複検出フレームワーク
- Authors: Dezheng Bao, Yueci Yang, Xin Chen, Zhengxuan Jiang, Zeguo Fei, Daoze Zhang, Xuanwen Huang, Junru Chen, Chutian Yu, Xiang Yuan, Yang Yang,
- Abstract要約: PD$3$は、適応型マルチエージェントデリバトによるプロジェクト重複検出フレームワークである。
現実世界の専門家による議論に触発されて、関連するプロジェクトを取得するためのマルチエージェントの議論をガイドするために、公正な競争形式を採用している。
我々は、電力専門家を支援するオンラインプラットフォーム、Review Dingdangを設立し、新たに提案された100以上のプロジェクトの最初の検出で530万USドルを節約した。
- 参考スコア(独自算出の注目度): 7.51777882109479
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Project duplication detection is critical for project quality assessment, as it improves resource utilization efficiency by preventing investing in newly proposed project that have already been studied. It requires the ability to understand high-level semantics and generate constructive and valuable feedback. Existing detection methods rely on basic word- or sentence-level comparison or solely apply large language models, lacking valuable insights for experts and in-depth comprehension of project content and review criteria. To tackle this issue, we propose PD$^3$, a Project Duplication Detection framework via adapted multi-agent Debate. Inspired by real-world expert debates, it employs a fair competition format to guide multi-agent debate to retrieve relevant projects. For feedback, it incorporates both qualitative and quantitative analysis to improve its practicality. Over 800 real-world power project data spanning more than 20 specialized fields are used to evaluate the framework, demonstrating that our method outperforms existing approaches by 7.43% and 8.00% in two downstream tasks. Furthermore, we establish an online platform, Review Dingdang, to assist power experts, saving 5.73 million USD in initial detection on more than 100 newly proposed projects.
- Abstract(参考訳): プロジェクト重複検出は、すでに研究されている新規プロジェクトへの投資を防止し、資源利用効率を向上させるため、プロジェクト品質評価に欠かせない。
高いレベルのセマンティクスを理解し、建設的で価値のあるフィードバックを生成する能力が必要です。
既存の検出方法は、基本的な単語や文レベルの比較や、単に大きな言語モデルのみを適用することに依存しており、専門家にとって貴重な洞察や、プロジェクト内容やレビュー基準の詳細な理解が欠如している。
この問題に対処するため,適応型マルチエージェント・ディベートによるプロジェクト重複検出フレームワークPD$^3$を提案する。
現実世界の専門家による議論に触発されて、関連するプロジェクトを取得するためのマルチエージェントの議論をガイドするために、公正な競争形式を採用している。
フィードバックには質的な分析と定量的分析の両方を取り入れて実用性を向上させる。
20以上の専門分野にまたがる800以上の実世界の電力プロジェクトデータを用いて,本手法が2つの下流タスクにおいて既存手法よりも7.43%,8.00%向上していることを示す。
さらに、我々は、電力専門家を支援するオンラインプラットフォーム、Review Dingdangを設立し、新たに提案された100以上のプロジェクトの最初の検出で530万USドルを節約した。
関連論文リスト
- Pretraining on the Test Set Is No Longer All You Need: A Debate-Driven Approach to QA Benchmarks [2.3188831772813105]
本稿では、既存のQAデータセットを構造化された敵対的議論に変換する議論駆動評価パラダイムを提案する。
我々は,(1)QAタスクを議論に基づく評価に体系的に変換する評価パイプライン,(2)MMLU-Pro質問のサブセットにおけるパラダイムの有効性を示す公開ベンチマークの2つの主要な貢献を行う。
論文 参考訳(メタデータ) (2025-07-23T17:58:14Z) - InspireDebate: Multi-Dimensional Subjective-Objective Evaluation-Guided Reasoning and Optimization for Debating [15.096294311783836]
既存の大規模言語モデル(LLM)は、信頼性や論理的妥当性といった客観的評価を無視しながら、特定の議論に応答することに焦点を当てている。
本稿では,新しい評価システムである$textbfInspireScore$と最適化された議論フレームワークである$textbfInspireDebate$を提案する。
$textbfInspireScore$は、既存のメソッドと比較して、専門家の判断と44$%高い相関を達成している。
論文 参考訳(メタデータ) (2025-06-22T17:14:29Z) - Efficient Portfolio Selection through Preference Aggregation with Quicksort and the Bradley--Terry Model [0.0]
長期的利益をもたらすプロジェクトに対して、限られたリソースを割り当てる方法は、不確実性の下で意思決定でしばしば発生する問題である。
そこで我々はQuicksortとBradley-Terryモデルに基づく比較ルールを提案する。
論文 参考訳(メタデータ) (2025-04-06T23:16:30Z) - ExpertGenQA: Open-ended QA generation in Specialized Domains [9.412082058055823]
ExpertGenQAは、いくつかのショット学習と構造化トピックとスタイル分類を組み合わせて、包括的なドメイン固有のQAペアを生成するプロトコルである。
ExpertGenQAは,9,4.4%のトピックカバレッジを維持しつつ,ベースライン数ショットアプローチの効率を2倍に向上することを示す。
論文 参考訳(メタデータ) (2025-03-04T19:09:48Z) - Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines [64.61315565501681]
M$2$RAG(Multi-modal Retrieval Augmented Multi-modal Generation)は、基礎モデルのマルチモーダルWebコンテンツ処理を可能にする新しいタスクである。
潜在的な影響にもかかわらず、M$2$RAGは、包括的な分析と高品質なデータリソースを欠いている。
論文 参考訳(メタデータ) (2024-11-25T13:20:19Z) - Multi-expert Prompting Improves Reliability, Safety, and Usefulness of Large Language Models [75.44218111729442]
本稿では,大規模言語モデル(LLM)生成を改善するために,Promptingの新たな拡張であるMulti-expert Promptingを提案する。
具体的には、複数の専門家をシミュレートし、応答を集約し、個々のレスポンスと集約されたレスポンスの中で最高のものを選択することで、入力命令を満たすようLLMを誘導する。
評価の結果, マルチエキスパート・プロンプトは, 毒性や傷害を低減しつつ, 真理性, 事実性, 情報性, 応答の有用性を高める上で, エキスパート・プロンプトと同等のベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-01T10:06:52Z) - 360$^\circ$REA: Towards A Reusable Experience Accumulation with 360° Assessment for Multi-Agent System [71.96888731208838]
評価フィードバックからの経験を総合的に評価し蓄積することは、システム性能を改善するための効果的なアプローチである、と我々は主張する。
企業組織の実践にインスパイアされた階層的なマルチエージェントフレームワークである360$circ$REA(360$circ$REA)による再利用可能なエクスペリエンス蓄積を提案する。
論文 参考訳(メタデータ) (2024-04-08T14:43:13Z) - Multimodal Gen-AI for Fundamental Investment Research [2.559302299676632]
本報告では、従来の意思決定プロセスを再考する金融投資業界における変革的イニシアティブについて概説する。
基礎モデル(Llama2)上での微調整手法の有効性を評価し,アプリケーションレベルの目標を達成する。
このプロジェクトには、調査報告、投資メモ、市場ニュース、広範な時系列市場データなど、さまざまなコーパスデータセットが含まれている。
論文 参考訳(メタデータ) (2023-12-24T03:35:13Z) - Mastering the Task of Open Information Extraction with Large Language
Models and Consistent Reasoning Environment [52.592199835286394]
オープン情報抽出(OIE)は、自然文から客観的な構造化された知識を抽出することを目的としている。
大規模言語モデル(LLM)は、テキスト内学習能力に優れています。
論文 参考訳(メタデータ) (2023-10-16T17:11:42Z) - CSPRD: A Financial Policy Retrieval Dataset for Chinese Stock Market [61.59326951366202]
我々は、中国株式政策検索データセット(CSPRD)を導入して、新たな課題である政策検索を提案する。
CSPRDは、中国の政策コーパスの10k以上の項目から、経験豊富な専門家によってラベル付けされた700以上のパスを提供する。
我々の最高のパフォーマンスベースラインは56.1% MRR@10、28.5% NDCG@10、37.5% Recall@10、80.6% Precision@10である。
論文 参考訳(メタデータ) (2023-09-08T15:40:54Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。