論文の概要: PEER: Expertizing Domain-Specific Tasks with a Multi-Agent Framework and Tuning Methods
- arxiv url: http://arxiv.org/abs/2407.06985v4
- Date: Fri, 30 Aug 2024 06:27:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-02 17:48:46.466448
- Title: PEER: Expertizing Domain-Specific Tasks with a Multi-Agent Framework and Tuning Methods
- Title(参考訳): PEER:マルチエージェントフレームワークとチューニングメソッドによるドメイン特化タスクのエキスパート化
- Authors: Yiying Wang, Xiaojing Li, Binzhu Wang, Yueyang Zhou, Yingru Lin, Han Ji, Hong Chen, Jinshi Zhang, Fei Yu, Zewei Zhao, Song Jin, Renji Gong, Wanqing Xu,
- Abstract要約: GPT-4は大きな可能性を秘めているが、性能、コスト、データプライバシーの重大な三重項に直面している。
PEER(Plan, Execute, Express, Review)マルチエージェントフレームワークを紹介する。
これは、正確な質問分解、高度な情報検索、包括的な要約、厳密な自己評価を統合することで、ドメイン固有のタスクを体系化する。
- 参考スコア(独自算出の注目度): 9.604121358026303
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In domain-specific applications, GPT-4, augmented with precise prompts or Retrieval-Augmented Generation (RAG), shows notable potential but faces the critical tri-lemma of performance, cost, and data privacy. High performance requires sophisticated processing techniques, yet managing multiple agents within a complex workflow often proves costly and challenging. To address this, we introduce the PEER (Plan, Execute, Express, Review) multi-agent framework. This systematizes domain-specific tasks by integrating precise question decomposition, advanced information retrieval, comprehensive summarization, and rigorous self-assessment. Given the concerns of cost and data privacy, enterprises are shifting from proprietary models like GPT-4 to custom models, striking a balance between cost, security, and performance. We developed industrial practices leveraging online data and user feedback for efficient model tuning. This study provides best practice guidelines for applying multi-agent systems in domain-specific problem-solving and implementing effective agent tuning strategies. Our empirical studies, particularly in the financial question-answering domain, demonstrate that our approach achieves 95.0% of GPT-4's performance, while effectively managing costs and ensuring data privacy.
- Abstract(参考訳): ドメイン固有のアプリケーションでは、正確なプロンプトを付加したGPT-4(Retrieval-Augmented Generation (RAG))が顕著な可能性を示しているが、パフォーマンス、コスト、データプライバシの重大な三重項に直面している。
ハイパフォーマンスには高度な処理技術が必要だが、複雑なワークフロー内で複数のエージェントを管理することは、しばしばコストと困難さを証明している。
これを解決するために、PEER(Plan, Execute, Express, Review)マルチエージェントフレームワークを紹介します。
これは、正確な質問分解、高度な情報検索、包括的な要約、厳密な自己評価を統合することで、ドメイン固有のタスクを体系化する。
コストとデータのプライバシに関する懸念から、企業は、GPT-4のようなプロプライエタリなモデルからカスタムモデルに移行し、コスト、セキュリティ、パフォーマンスのバランスを保っている。
我々は、効率的なモデルチューニングのためのオンラインデータとユーザフィードバックを活用する産業プラクティスを開発した。
本研究は、ドメイン固有の問題解決にマルチエージェントシステムを適用し、効果的なエージェントチューニング戦略を実装するためのベストプラクティスガイドラインを提供する。
GPT-4の性能は95.0%で、コストを効果的に管理し、データのプライバシーを確保する。
関連論文リスト
- Efficient Multimodal Planning Agent for Visual Question-Answering [67.26245301307539]
本稿では,MRAGパイプラインを動的に分解してVQAタスクを解くマルチモーダル計画エージェントを訓練する手法を提案する。
本実験では, 従来の手法に比べて探索時間を60%以上削減し, 余剰計算の削減に役立てることができた。
論文 参考訳(メタデータ) (2026-01-28T14:58:59Z) - Reliable LLM-Based Edge-Cloud-Expert Cascades for Telecom Knowledge Systems [54.916243942641444]
大規模言語モデル(LLM)は、通信などの分野において、自動化の鍵となる存在として浮上している。
本研究では,問合せパイプラインによる意思決定を支援する,エッジクラウドに精通したLLMベースの知識システムについて検討する。
論文 参考訳(メタデータ) (2025-12-23T03:10:09Z) - Building Domain-Specific Small Language Models via Guided Data Generation [5.404790079646315]
大規模言語モデル(LLM)は、幅広い知識集約的なタスクをサポートすることに顕著な成功を収めている。
専門分野においては、分野の専門家をドメイン固有の課題で支援するためにLLMを活用することへの関心が高まっている。
多くのオープンソースモデルは、効果的なドメイン適応とデプロイのために重要な計算資源を必要とする。
小型シードコーパスからガイド付き合成データ生成とボトムアップドメインデータを組み合わせた,低コストでスケーラブルなトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2025-11-23T07:19:31Z) - AstuteRAG-FQA: Task-Aware Retrieval-Augmented Generation Framework for Proprietary Data Challenges in Financial Question Answering [0.0]
我々は、FQA(Financial Question Answering)に適した適応RAGフレームワークAstuteRAG-FQAを紹介する。
本研究では,暗黙の因果推論を含む4段階の課題分類,暗黙の事実的,暗黙の事実的,解釈可能な理性,隠蔽の理性を提案する。
このフレームワークには、ディファレンシャルプライバシ、データ匿名化、機密情報を保護するロールベースのアクセス制御など、多層セキュリティ機構が組み込まれている。
論文 参考訳(メタデータ) (2025-10-31T15:13:03Z) - ORMind: A Cognitive-Inspired End-to-End Reasoning Framework for Operations Research [53.736407871322314]
ORMindは認知にインスパイアされたフレームワークで、反ファクト推論を通じて最適化を強化する。
提案手法は,要求を数学的モデルや実行可能なコードに変換するエンド・ツー・エンドのワークフローを実装し,人間の認識をエミュレートする。
現在はLenovoのAIアシスタントで内部でテストされており、ビジネスとコンシューマの両方の最適化機能を強化する予定である。
論文 参考訳(メタデータ) (2025-06-02T05:11:21Z) - Hard Negative Mining for Domain-Specific Retrieval in Enterprise Systems [2.4830284216463]
ドメイン固有の企業データに特化して設計された,スケーラブルなハード負のマイニングフレームワークを提案する。
提案手法は意味論的に難しいが文脈的に無関係な文書を動的に選択し,デプロイされた再ランクモデルを強化する。
論文 参考訳(メタデータ) (2025-05-23T20:51:20Z) - Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。
本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification [5.666070277424383]
MAG-Vは、顧客のクエリを模倣する質問のデータセットを生成するフレームワークである。
我々の合成データは、実際の顧客クエリにおけるエージェントのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-11-28T19:36:11Z) - Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines [64.61315565501681]
M$2$RAG(Multi-modal Retrieval Augmented Multi-modal Generation)は、基礎モデルのマルチモーダルWebコンテンツ処理を可能にする新しいタスクである。
潜在的な影響にもかかわらず、M$2$RAGは、包括的な分析と高品質なデータリソースを欠いている。
論文 参考訳(メタデータ) (2024-11-25T13:20:19Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - The Effect of Scheduling and Preemption on the Efficiency of LLM Inference Serving [8.552242818726347]
INFERMAXは様々なスケジューラを比較するために推論コストモデルを使用する分析フレームワークである。
その結果,プリエンプション要求はプリエンプションを回避するよりもGPUコストを30%削減できることがわかった。
論文 参考訳(メタデータ) (2024-11-12T00:10:34Z) - CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments [90.29937153770835]
CRMArenaは、プロフェッショナルな作業環境に根ざした現実的なタスクにおいて、AIエージェントを評価するために設計されたベンチマークである。
現状のLDMエージェントはReActプロンプトのタスクの40%以下で成功し,機能呼び出し能力でも55%以下であった。
この結果から,実環境に展開する関数呼び出しやルールフォローにおいて,エージェント機能の向上の必要性が示唆された。
論文 参考訳(メタデータ) (2024-11-04T17:30:51Z) - MetaTrading: An Immersion-Aware Model Trading Framework for Vehicular Metaverse Services [94.61039892220037]
我々は、フェデレーション学習(FL)によるプライバシーを確保しつつ、サービスのデータ提供を容易にする没入型モデルトレーディングフレームワークを提案する。
我々は,資源制約下での高価値モデルに貢献するために,メタバースユーザ(MU)にインセンティブを与えるインセンティブ機構を設計する。
我々は、MUやその他のMSPに関するプライベート情報にアクセスすることなく、深層強化学習に基づく完全に分散された動的報酬アルゴリズムを開発する。
論文 参考訳(メタデータ) (2024-10-25T16:20:46Z) - Optimizing Cross-Client Domain Coverage for Federated Instruction Tuning of Large Language Models [87.49293964617128]
大規模言語モデル(LLM)のためのFedDIT(Federated Domain-specific instruction tuning)は、分散プライベートデータと限定データを用いて、特定のドメインの性能を向上させることを目的としている。
データ不均一性ではなく、クロスクライアントなドメインカバレッジが重要な要素であることを実証的に証明します。
我々は多様性指向のクライアントセンターの選択と検索に基づく拡張を通じて、このカバレッジを明示的に最大化するアルゴリズムであるFedDCAを紹介する。
論文 参考訳(メタデータ) (2024-09-30T09:34:31Z) - Towards Human-Level Understanding of Complex Process Engineering Schematics: A Pedagogical, Introspective Multi-Agent Framework for Open-Domain Question Answering [0.0]
化学・プロセス産業では、プロセス・フロー・ダイアグラム(PFD)とパイプ・アンド・インスツルメンテーション・ダイアグラム(P&ID)が設計、建設、保守に不可欠である。
生成型AIの最近の進歩は、ビジュアル質問回答(VQA)のプロセス図の理解と解釈の約束を示している。
本稿では,階層的かつマルチエージェントなRetrieval Augmented Generation(RAG)フレームワークを用いた,セキュアでオンプレミスなエンタープライズソリューションを提案する。
論文 参考訳(メタデータ) (2024-08-24T19:34:04Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - Enhancing the Efficiency and Accuracy of Underlying Asset Reviews in Structured Finance: The Application of Multi-agent Framework [3.022596401099308]
AIは、ローンアプリケーションと銀行のステートメント間の情報の検証を効果的に自動化できることを示します。
この研究は、手動エラーを最小限に抑え、デューディリジェンスを合理化するAIの可能性を強調し、財務文書分析とリスク管理におけるAIの幅広い応用を示唆している。
論文 参考訳(メタデータ) (2024-05-07T13:09:49Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - Dial-insight: Fine-tuning Large Language Models with High-Quality Domain-Specific Data Preventing Capability Collapse [4.98050508891467]
高品質なデータを得るために設計された生産プロンプトを構築するための2段階のアプローチを提案する。
この方法は、幅広いタスクを包含し、多種多様な表現を示す多様なプロンプトの生成を含む。
生成したラベルデータの整合性を確保するため,コスト効率,多次元品質評価フレームワークを導入する。
論文 参考訳(メタデータ) (2024-03-14T08:27:32Z) - Physics-Aware Multifidelity Bayesian Optimization: a Generalized Formulation [0.0]
MFBO(Multifidelity Bayesian Method)は、クエリのサブセレクションのみに対して、コストの高い高忠実度応答を組み込むことができる。
State-of-the-artメソッドは純粋にデータ駆動型検索に依存しており、物理的なコンテキストに関する明示的な情報は含まない。
本稿では、これらのデータ駆動探索を高速化するために、工学的問題の物理領域に関する事前知識を活用することができることを認めた。
論文 参考訳(メタデータ) (2023-12-10T09:11:53Z) - Optimal Event Monitoring through Internet Mashup over Multivariate Time
Series [77.34726150561087]
このフレームワークは、モデル定義、クエリ、パラメータ学習、モデル評価、データ監視、決定レコメンデーション、Webポータルのサービスをサポートする。
さらに、MTSAデータモデルとクエリ言語を拡張して、学習、監視、レコメンデーションのサービスにおいて、この種の問題をサポートする。
論文 参考訳(メタデータ) (2022-10-18T16:56:17Z) - Reinforcement Learning with Efficient Active Feature Acquisition [59.91808801541007]
実生活では、情報取得は患者の医療検査に該当する可能性がある。
本稿では,アクティブな特徴獲得ポリシーを学習するモデルに基づく強化学習フレームワークを提案する。
この成功の鍵は、部分的に観察された状態から高品質な表現を学ぶ新しい逐次変分自動エンコーダである。
論文 参考訳(メタデータ) (2020-11-02T08:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。