論文の概要: CrowdSelect: Synthetic Instruction Data Selection with Multi-LLM Wisdom
- arxiv url: http://arxiv.org/abs/2503.01836v1
- Date: Mon, 03 Mar 2025 18:56:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:25:09.613294
- Title: CrowdSelect: Synthetic Instruction Data Selection with Multi-LLM Wisdom
- Title(参考訳): CrowdSelect: Multi-LLM Wisdom を用いた合成命令データ選択
- Authors: Yisen Li, Lingfeng Yang, Wenxuan Shen, Pan Zhou, Yao Wan, Weiwei Lin, Dongping Chen,
- Abstract要約: 高度な大規模言語モデルの命令追従能力をより小さなモデルに拡張することは、モデルの訓練において主流のアプローチとなっている。
我々は、より多様な信号を用いて、包括的命令応答対の特性を捉える。
本稿では、クラスタリングに基づくアプローチを取り入れた、応答の多様性を維持するための統合メトリックであるCrowdSelectを提案する。
- 参考スコア(独自算出の注目度): 45.382739152668954
- License:
- Abstract: Distilling advanced Large Language Models' instruction-following capabilities into smaller models using a selected subset has become a mainstream approach in model training. While existing synthetic instruction data selection strategies rely mainly on single-dimensional signals (i.e., reward scores, model perplexity), they fail to capture the complexity of instruction-following across diverse fields. Therefore, we investigate more diverse signals to capture comprehensive instruction-response pair characteristics and propose three foundational metrics that leverage Multi-LLM wisdom, informed by (1) diverse LLM responses and (2) reward model assessment. Building upon base metrics, we propose CrowdSelect, an integrated metric incorporating a clustering-based approach to maintain response diversity. Our comprehensive experiments demonstrate that our foundation metrics consistently improve performance across 4 base models on MT-bench and Arena-Hard. CrowdSelect, efficiently incorporating all metrics, achieves state-of-the-art performance in both Full and LoRA fine-tuning, showing improvements of 4.81% on Arena-Hard and 11.1% on MT-bench with Llama-3.2-3b-instruct. We hope our findings will bring valuable insights for future research in this direction. Code are available at https://github.com/listentm/crowdselect.
- Abstract(参考訳): より高度な大規模言語モデルの命令追従能力を、選択されたサブセットを使用してより小さなモデルに拡張することは、モデルのトレーニングにおいて主流のアプローチとなっている。
既存の合成命令データ選択戦略は、主に1次元信号(報酬スコア、モデルパープレキシティ)に依存しているが、様々な分野にわたる命令追従の複雑さを捉えることはできなかった。
そこで本研究では,(1)多様なLCM応答と(2)報酬モデルアセスメントを用いて,多LLM知恵を活用した3つの基礎的指標を提案する。
本稿では,クラスタリングに基づくアプローチを取り入れ,応答の多様性を維持するための統合メトリクスであるCrowdSelectを提案する。
我々の総合的な実験は、MT-benchとArena-Hardの4つのベースモデルにおけるパフォーマンスが一貫して改善していることを示しています。
CrowdSelectはすべてのメトリクスを効率的に取り入れ、フルとロラのファインチューニングで最先端のパフォーマンスを実現し、アリーナ・ハードでは4.81%、ラマ-3.2-3bインストラクトでは11.1%の改善が見られた。
私たちの発見が今後の研究に貴重な洞察をもたらすことを願っています。
コードはhttps://github.com/listentm/crowdselect.comで入手できる。
関連論文リスト
- DFPE: A Diverse Fingerprint Ensemble for Enhancing LLM Performance [11.753349115726952]
そこで我々は,新しいアンサンブル法であるDiverse Fingerprint Ensemble (DFPE)を提案する。
提案手法は,(1)応答型"フィンガープリント"パターンに基づくクラスタリングモデル,(2)量子化に基づくフィルタリング機構の適用,(3)残余モデルに適応重みを割り当てることである。
MMLU(Massive Multitask Language Understanding)ベンチマークの実験では、DFPEは、全体的な精度が3%、規律レベルの精度が5%向上し、最高のシングルモデルを上回った。
論文 参考訳(メタデータ) (2025-01-29T08:44:45Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - 3M: Multi-loss, Multi-path and Multi-level Neural Networks for speech
recognition [31.992543274210835]
我々は、ASRタスクのさらなる改善を実現するために、いくつかのアプローチを特定し、統合する。
特に、マルチロスは共同CTC/AED損失を指し、マルチパスはMixture-of-Experts(MoE)アーキテクチャを表す。
WenetSpeechデータセットを用いて提案手法の評価を行い,提案手法がCERの相対的改善を12.2%-17.6%に与えることを示す。
論文 参考訳(メタデータ) (2022-04-07T03:10:49Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。