論文の概要: Review-Instruct: A Review-Driven Multi-Turn Conversations Generation Method for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.11010v1
- Date: Fri, 16 May 2025 08:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.38029
- Title: Review-Instruct: A Review-Driven Multi-Turn Conversations Generation Method for Large Language Models
- Title(参考訳): Review-Instruct: 大規模言語モデルのためのレビュー駆動型多言語対話生成手法
- Authors: Jiangxu Wu, Cong Wang, TianHuang Su, Jun Yang, Haozhi Lin, Chao Zhang, Ming Peng, Kai Shi, SongPan Yang, BinQing Pan, ZiXian Li, Ni Yang, ZhenYu Yang,
- Abstract要約: マルチターン対話データを生成する既存の方法は、命令の多様性と品質の両方を保証するために苦労している。
Ask-Respond-Review」プロセスを通じて複数回会話を合成する新しいフレームワークであるReview-Instructを提案する。
- 参考スコア(独自算出の注目度): 9.660334829409253
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The effectiveness of large language models (LLMs) in conversational AI is hindered by their reliance on single-turn supervised fine-tuning (SFT) data, which limits contextual coherence in multi-turn dialogues. Existing methods for generating multi-turn dialogue data struggle to ensure both diversity and quality in instructions. To address this, we propose Review-Instruct, a novel framework that synthesizes multi-turn conversations through an iterative "Ask-Respond-Review" process involving three agent roles: a Candidate, multiple Reviewers, and a Chairman. The framework iteratively refines instructions by incorporating Reviewer feedback, enhancing dialogue diversity and difficulty. We construct a multi-turn dataset using the Alpaca dataset and fine-tune the LLaMA2-13B model. Evaluations on MT-Bench, MMLU-Pro, and Auto-Arena demonstrate significant improvements, achieving absolute gains of 2.9\% on MMLU-Pro and 2\% on MT-Bench compared to prior state-of-the-art models based on LLaMA2-13B. Ablation studies confirm the critical role of the Review stage and the use of multiple Reviewers in boosting instruction diversity and difficulty. Our work highlights the potential of review-driven, multi-agent frameworks for generating high-quality conversational data at scale.
- Abstract(参考訳): 対話型AIにおける大規模言語モデル(LLM)の有効性は、マルチターン対話におけるコンテキストコヒーレンスを制限する単一ターン教師付き微調整(SFT)データへの依存によって妨げられる。
マルチターン対話データを生成する既存の方法は、命令の多様性と品質の両方を保証するために苦労している。
そこで本研究では,3つのエージェントの役割 – 候補,複数のレビュアー,議長 – を含む反復的な"Ask-Respond-Review"プロセスを通じて,マルチターン会話を合成する新しいフレームワークであるReview-Instructを提案する。
このフレームワークは、レビュアーフィードバックを取り入れ、対話の多様性と難易度を高めることで、指示を反復的に洗練する。
我々はAlpacaデータセットを用いてマルチターンデータセットを構築し、LLaMA2-13Bモデルを微調整する。
MT-Bench, MMLU-Pro, Auto-Arena の評価は, LLaMA2-13B に基づく先行技術モデルと比較して, MMLU-Pro では2.9 %, MT-Bench では2.9 %の絶対ゲインを得た。
アブレーション研究は、講義の多様性と難易度を高める上で、レビューステージと複数のレビュアーの使用の重要性を裏付けるものである。
我々の研究は、大規模に高品質な会話データを生成するためのレビュー駆動のマルチエージェントフレームワークの可能性を強調している。
関連論文リスト
- VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。
我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。
マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文 参考訳(メタデータ) (2025-03-13T12:03:37Z) - Peer Review as A Multi-Turn and Long-Context Dialogue with Role-Based Interactions [62.0123588983514]
大規模言語モデル(LLM)は様々な分野にまたがる幅広い応用を実証してきた。
我々は、ピアレビュープロセスを多ターン長文対話として再構築し、著者、レビュアー、意思決定者に対して異なる役割を担っている。
複数の情報源から収集された92,017件のレビューを含む26,841件の論文を含む包括的データセットを構築した。
論文 参考訳(メタデータ) (2024-06-09T08:24:17Z) - MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues [58.33076950775072]
MT-Bench-101は,マルチターン対話におけるLarge Language Models (LLMs) の細粒度化能力を評価するために設計された。
1388のタスクで4208のターンが1388のマルチターン対話にまたがる3階層の階層的能力分類を構築した。
次に,MT-Bench-101に基づく21のLLMを評価し,能力とタスクの観点から総合的な分析を行った。
論文 参考訳(メタデータ) (2024-02-22T18:21:59Z) - Multimodal Recommendation Dialog with Subjective Preference: A New
Challenge and Benchmark [38.613625892808706]
本稿では,SURE (Multimodal Recommendation Dialog with SUbjective Preference)を提案する。
データは、品質と多様性を保証するために、人間のアノテーションで2つのフェーズで構築されます。
SUREは、営業専門家が提案する主観的嗜好と推奨行為によく言及されている。
論文 参考訳(メタデータ) (2023-05-26T08:43:46Z) - Self-Agreement: A Framework for Fine-tuning Language Models to Find
Agreement among Diverse Opinions [1.6752182911522517]
自己集約(Self-Agreement)は、合意を自律的に見つけるための、大規模言語モデルを微調整するための新しいフレームワークである。
提案手法では,生成事前学習型トランスフォーマー3を用いて,質問データセットの各質問に対して複数の意見を生成する。
変換器ベースモデル(BERT)からの双方向エンコーダ表現は、一致スコアが最も高いものを選択する。
注目すべきは、我々のSelf-Agreementフレームワークによって微調整された事前学習LLMは、パラメータの1/25しか持たないGPT-3に匹敵する性能を達成することである。
論文 参考訳(メタデータ) (2023-05-19T06:27:16Z) - Coreference-aware Double-channel Attention Network for Multi-party
Dialogue Reading Comprehension [7.353227696624305]
MDRC(Multi-party Dialogue Reading)に挑戦する
MDRCは、複数のインターロケータ間の対話に基づく抽出読解タスクの略である。
推論能力を高めるためのコア推論対応アテンションモデリング手法を提案する。
論文 参考訳(メタデータ) (2023-05-15T05:01:29Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。