論文の概要: Training Language Models to Critique With Multi-agent Feedback
- arxiv url: http://arxiv.org/abs/2410.15287v1
- Date: Sun, 20 Oct 2024 04:57:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:18:58.811939
- Title: Training Language Models to Critique With Multi-agent Feedback
- Title(参考訳): マルチエージェントフィードバックによる言語モデルの批判訓練
- Authors: Tian Lan, Wenwei Zhang, Chengqi Lyu, Shuaibin Li, Chen Xu, Heyan Huang, Dahua Lin, Xian-Ling Mao, Kai Chen,
- Abstract要約: MultiCritique パイプラインはマルチエージェントフィードバックを利用することで LLM の批判能力を向上させる。
パイプラインは、単一のモデルではなく、複数のエージェントからの高品質な批評を集約する。
我々の微調整された7Bモデルは、他の高度な7B-13Bオープンソースモデルを大きく上回っている。
- 参考スコア(独自算出の注目度): 102.42751835338233
- License:
- Abstract: Critique ability, a meta-cognitive capability of humans, presents significant challenges for LLMs to improve. Recent works primarily rely on supervised fine-tuning (SFT) using critiques generated by a single LLM like GPT-4. However, these model-generated critiques often exhibit flaws due to the inherent complexity of the critique. Consequently, fine-tuning LLMs on such flawed critiques typically limits the model's performance and propagates these flaws into the learned model. To overcome these challenges, this paper proposes a novel data generation pipeline, named MultiCritique, that improves the critique ability of LLMs by utilizing multi-agent feedback in both the SFT and reinforcement learning (RL) stages. First, our data generation pipeline aggregates high-quality critiques from multiple agents instead of a single model, with crucial information as input for simplifying the critique. Furthermore, our pipeline improves the preference accuracy of critique quality through multi-agent feedback, facilitating the effectiveness of RL in improving the critique ability of LLMs. Based on our proposed MultiCritique data generation pipeline, we construct the MultiCritiqueDataset for the SFT and RL fine-tuning stages. Extensive experimental results on two benchmarks demonstrate: 1) the superior quality of our constructed SFT dataset compared to existing critique datasets; 2) additional improvements to the critique ability of LLMs brought by the RL stage. Notably, our fine-tuned 7B model significantly surpasses other advanced 7B-13B open-source models, approaching the performance of advanced 70B LLMs and GPT-4. Codes, datasets and model weights will be publicly available.
- Abstract(参考訳): ヒトのメタ認知能力である批判能力は、LSMが改善する上で重要な課題を提示する。
最近の研究は、主に、GPT-4のような単一のLCMによって生成された批評を用いた教師付き微調整(SFT)に依存している。
しかし、これらのモデルが生成した批判は、その批判の本質的な複雑さのためにしばしば欠陥を示す。
その結果、このような欠陥のある批判に対する微調整 LLM は、通常、モデルの性能を制限し、これらの欠陥を学習モデルに伝達する。
これらの課題を克服するために,SFTおよび強化学習(RL)段階のマルチエージェントフィードバックを活用することにより,LLMの批判能力を向上させる,MultiCritiqueという新しいデータ生成パイプラインを提案する。
まず、データ生成パイプラインは、単一のモデルではなく、複数のエージェントからの高品質な批判を集約し、批判を単純化するための入力として重要な情報を提供します。
さらに,本パイプラインは,マルチエージェントフィードバックによる批評品質の選好精度の向上を実現し,LCMの批評能力向上におけるRLの有効性を向上する。
提案したMultiCritiqueデータ生成パイプラインに基づいて,SFTおよびRLファインチューニングステージのためのMultiCritiqueDatasetを構築する。
2つのベンチマークの大規模な実験結果が示す。
1) 既存の批判データセットと比較して, 構築したSFTデータセットの優れた品質
2) RLステージによってもたらされたLCMの批判能力にさらなる改善が加えられた。
特に、我々の微調整 7B モデルは、他の高度な 7B-13B オープンソースモデルを大きく上回り、70B LLM と GPT-4 の性能に近づいた。
コード、データセット、モデルウェイトが公開されている。
関連論文リスト
- Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。
通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (2025-01-24T13:48:10Z) - Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。
コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。
最大で10.3%の改善が達成されている。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - LLMs are Also Effective Embedding Models: An In-depth Overview [40.53941563464671]
大規模言語モデル(LLM)は、様々なタスクで最先端のパフォーマンスを達成することによって、自然言語処理に革命をもたらした。
近年、埋め込みモデルとしての有効性が注目され、ELMoやBERTのような従来のエンコーダのみのモデルから、GPT、LLaMA、Mistralのようなデコーダのみの大規模LLMへとパラダイムシフトした。
論文 参考訳(メタデータ) (2024-12-17T06:48:24Z) - EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation [58.546205554954454]
臨界観測(EACO)によるMLLMのアライメント向上を提案する。
EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。
EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
論文 参考訳(メタデータ) (2024-12-06T09:59:47Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - CriticBench: Benchmarking LLMs for Critique-Correct Reasoning [26.45110574463893]
CriticBenchは、大規模言語モデルの推論を批判し修正する能力を評価するために設計されたベンチマークである。
生成, 批判, 修正推論における17個のLLMの性能を評価し, 評価した。
論文 参考訳(メタデータ) (2024-02-22T18:59:02Z) - Towards Reliable and Fluent Large Language Models: Incorporating
Feedback Learning Loops in QA Systems [10.58737969057445]
我々は,大規模な言語モデルによって生成された応答の引用,正しさ,および流布性を評価することができる評論家モデルを訓練するためのデータセットを構築した。
本稿では,批判モデルを利用して生成したテキストの異質な側面をリアルタイムにフィードバックする自動フィードバック機構を提案する。
提案手法の有効性を実験的に検証し,4%の精度向上とMAUVE測定値の約8%の精度向上を図った。
論文 参考訳(メタデータ) (2023-09-08T09:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。