論文の概要: Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data
- arxiv url: http://arxiv.org/abs/2502.04380v1
- Date: Wed, 05 Feb 2025 17:21:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:59:01.350816
- Title: Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data
- Title(参考訳): リワードとしての多様性:ドメイン非決定データの混合による微調整LDM
- Authors: Zhenqing Ling, Daoyuan Chen, Liuyi Yao, Yaliang Li, Ying Shen,
- Abstract要約: 大規模言語モデル(LLM)の全体的な能力向上におけるデータ多様性の役割について検討する。
本稿では,LLMに2つのアイデンティティを与える新しい手法を提案する。多様性報酬に基づいてデータを認知的に探索し,選択する出力モデルと,選択したデータに調整する入力モデルである。
- 参考スコア(独自算出の注目度): 36.277423093218275
- License:
- Abstract: Fine-tuning large language models (LLMs) using diverse datasets is crucial for enhancing their overall performance across various domains. In practical scenarios, existing methods based on modeling the mixture proportions of data composition often struggle with data whose domain labels are missing, imprecise or non-normalized, while methods based on data selection usually encounter difficulties in balancing multi-domain performance. To address these challenges, in this paper, we study the role of data diversity in enhancing the overall abilities of LLMs by empirically constructing contrastive data pools and theoretically deriving explanations for both inter- and intra-diversity. Building upon the insights gained, we propose a new method that gives the LLM a dual identity: an output model to cognitively probe and select data based on diversity reward, as well as an input model to be tuned with the selected data. Extensive experiments show that the proposed method notably boosts performance across domain-undetermined data and a series of foundational downstream tasks when applied to various advanced LLMs. We release our code and hope this study can shed light on the understanding of data diversity and advance feedback-driven data-model co-development for LLMs.
- Abstract(参考訳): 多様なデータセットを使用した細調整された大規模言語モデル(LLM)は、さまざまな領域にわたる全体的なパフォーマンス向上に不可欠である。
実際のシナリオでは、データ構成の混合比率をモデル化した既存の手法は、ドメインラベルが欠けている、不正確、あるいは正規化されていないデータとしばしば苦労するが、データ選択に基づく手法は通常、マルチドメインのパフォーマンスのバランスをとるのに困難に直面する。
本稿では,LLMの総合能力向上におけるデータ多様性の役割について,対照的なデータプールを実証的に構築し,異種間と異種間の説明を理論的に導出することによって検討する。
得られた知見に基づいて,LLMに2つの同一性を与える新たな手法を提案する。多様性報酬に基づいてデータを認知的に探索し,選択する出力モデルと,選択したデータに調整する入力モデルである。
大規模実験により,提案手法は領域未決定データ間の性能を顕著に向上させ,様々な高度なLCMに適用した場合に,一連の基礎的な下流処理を行うことを示した。
我々はコードを公開し、この研究がデータ多様性の理解とLLMのためのフィードバック駆動型データモデルの共同開発を促進することを願っている。
関連論文リスト
- Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [64.50893177169996]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルなヘテロジニアスシナリオにおけるMLLMのファインチューニングにおける様々なダウンストリームタスクを評価するためのベンチマークを提案する。
我々は,2つのモダリティに依存しない戦略とともに,4つの代表的FL手法を統合する汎用FedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - Synthesize, Partition, then Adapt: Eliciting Diverse Samples from Foundation Models [14.037826400805741]
本稿では,多くのドメインで利用可能な豊富な合成データを活用し,基礎モデルから多様な応答を抽出する新しいフレームワークであるSynthesize-Partition-Adapt (SPA)を提案する。
影響関数などのデータ帰属法によって提供される信号を利用することで、SPAはデータをサブセットに分割し、それぞれがデータ固有の側面をターゲットにし、これらのサブセットに最適化された複数のモデル適応を訓練する。
論文 参考訳(メタデータ) (2024-11-11T05:13:21Z) - On the Diversity of Synthetic Data and its Impact on Training Large Language Models [34.00031258223175]
大規模言語モデル(LLM)は、多種多様な高品質な事前学習データの必要性を強調している。
合成データは、データの不足とアクセシビリティの課題に対する、実行可能なソリューションとして現れます。
本研究では, 事前学習および微調整段階における合成データ多様性の下流効果について検討した。
論文 参考訳(メタデータ) (2024-10-19T22:14:07Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Unveiling the Impact of Coding Data Instruction Fine-Tuning on Large Language Models Reasoning [64.5243480989869]
コーディングデータは、事前訓練中に推論能力を高めることで知られています。
IFTにおける内的推論能力の活性化におけるその役割はいまだ検討されている。
IFT段階におけるLLMの推論能力に及ぼす符号化データの影響について検討する。
論文 参考訳(メタデータ) (2024-05-30T23:20:25Z) - SilverSight: A Multi-Task Chinese Financial Large Language Model Based on Adaptive Semantic Space Learning [4.540505713937026]
本研究では, 適応意味空間学習(ASSL)フレームワークを導入し, マルチエキスパートモデルの性能向上と選択効率の向上を図る。
研究結果から,本フレームワークはデータの10%に過ぎず,完全なデータトレーニングで得られた結果に近い結果が得られるとともに,強力な一般化能力を示すことがわかった。
論文 参考訳(メタデータ) (2024-04-07T13:02:21Z) - Data Augmentation using Large Language Models: Data Perspectives, Learning Paradigms and Challenges [47.45993726498343]
データ強化(DA)は、データ収集を必要とせずにトレーニング例を多様化することにより、モデルパフォーマンスを向上させる重要な手法として登場した。
本調査では,大規模言語モデル(LLM)がDAに与える影響,特に自然言語処理(NLP)以降の文脈において,それらが持つ固有の課題と機会に対処する。
論文 参考訳(メタデータ) (2024-03-05T14:11:54Z) - Multimodal hierarchical Variational AutoEncoders with Factor Analysis latent space [45.418113011182186]
本研究では,変分オートエンコーダ(VAE)と因子解析潜時空間(FA-VAE)を組み合わせることで,制約に対処する新しい手法を提案する。
FA-VAE法は複数のVAEを用いて連続潜伏空間における各異種データビューのプライベート表現を学習する。
論文 参考訳(メタデータ) (2022-07-19T10:46:02Z) - Consistency and Diversity induced Human Motion Segmentation [231.36289425663702]
本稿では,CDMS(Consistency and Diversity induced Human Motion)アルゴリズムを提案する。
我々のモデルは、ソースとターゲットデータを異なる多層特徴空間に分解する。
ソースとターゲットデータ間の領域ギャップを低減するために、マルチミューチュアル学習戦略を実行する。
論文 参考訳(メタデータ) (2022-02-10T06:23:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。