論文の概要: CoEvol: Constructing Better Responses for Instruction Finetuning through Multi-Agent Cooperation
- arxiv url: http://arxiv.org/abs/2406.07054v1
- Date: Tue, 11 Jun 2024 08:35:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 16:54:22.853603
- Title: CoEvol: Constructing Better Responses for Instruction Finetuning through Multi-Agent Cooperation
- Title(参考訳): CoEvol: マルチエージェント連携によるインストラクションファインタニングのためのより良い応答の構築
- Authors: Renhao Li, Minghuan Tan, Derek F. Wong, Min Yang,
- Abstract要約: 命令に対する応答を改善するためのLLMベースのマルチエージェント協調フレームワークであるCoEvolを提案する。
実証的には、CoEvolを搭載したモデルはMT-BenchとAlpacaEvalで評価された競争ベースラインを上回った。
- 参考スコア(独自算出の注目度): 33.33513657902765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, instruction fine-tuning (IFT) on large language models (LLMs) has garnered considerable attention to enhance model performance on unseen tasks. Attempts have been made on automatic construction and effective selection for IFT data. However, we posit that previous methods have not fully harnessed the potential of LLMs for enhancing data quality. The responses within IFT data could be further enhanced by leveraging the capabilities of LLMs themselves. In this paper, we propose CoEvol, an LLM-based multi-agent cooperation framework for the improvement of responses to instructions. To effectively refine the responses, we develop an iterative framework following a debate-advise-edit-judge paradigm. A two-stage multi-agent debate strategy is further devised to ensure the diversity and reliability of editing suggestions within the framework. Empirically, models equipped with CoEvol outperform competitive baselines evaluated by MT-Bench and AlpacaEval, demonstrating its effectiveness in enhancing instruction-following capabilities for LLMs.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) における命令微調整 (IFT) が注目されている。
IFTデータの自動構築と効率的な選択の試みがなされている。
しかし,従来の手法ではデータ品質向上にLLMの可能性を十分に活用できていない。
IFTデータ内の応答は、LSM自体の能力を活用することでさらに強化される可能性がある。
本稿では,命令に対する応答を改善するためのLLMベースのマルチエージェント協調フレームワークであるCoEvolを提案する。
反応を効果的に洗練するために,議論-助言-編集-ジャッジのパラダイムに従って反復的な枠組みを開発する。
フレームワーク内での編集提案の多様性と信頼性を確保するために、2段階のマルチエージェントの議論戦略がさらに考案されている。
MT-Bench と AlpacaEval により評価されたCoEvol を用いたモデルでは,LLM の命令追従能力の向上が実証された。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。
通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。
本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:00:06Z) - The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities [0.35998666903987897]
本稿では,Large Language Models (LLM) の微調整について検討する。
従来の自然言語処理(NLP)モデルから、AIにおける彼らの重要な役割まで、LLMの歴史的進化を概説している。
本報告では, 微調整LDMのための構造化7段パイプラインについて紹介する。
論文 参考訳(メタデータ) (2024-08-23T14:48:02Z) - DaRec: A Disentangled Alignment Framework for Large Language Model and Recommender System [83.34921966305804]
大規模言語モデル (LLM) はレコメンデーションシステムにおいて顕著な性能を示した。
LLMと協調モデルのための新しいプラグ・アンド・プレイアライメントフレームワークを提案する。
我々の手法は既存の最先端アルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2024-08-15T15:56:23Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - Enabling Weak LLMs to Judge Response Reliability via Meta Ranking [38.63721941742435]
我々は、$textitMeta Ranking$ (MR) と呼ばれるクロスクエリベースの新しい手法を提案する。
MRは、ターゲットクエリ-レスポンスペアを複数の参照クエリ-レスポンスペアにペアでランク付けすることで、信頼性を評価する。
MRはモデルカスケーディングとインストラクションチューニングの2つの実用的応用において、強力なLLMの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-02-19T13:57:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。