論文の概要: Minimum Tuning to Unlock Long Output from LLMs with High Quality Data as the Key
- arxiv url: http://arxiv.org/abs/2410.10210v2
- Date: Tue, 15 Oct 2024 13:21:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 02:24:44.260748
- Title: Minimum Tuning to Unlock Long Output from LLMs with High Quality Data as the Key
- Title(参考訳): 高品質データを鍵としてLLMの長期出力をアンロックする最小チューニング
- Authors: Yingda Chen, Xingjun Wang, Jintao Huang, Yunlin Mao, Daoze Zhang, Yuze Zhao,
- Abstract要約: トレーニングデータインスタンスと計算処理の少ないチューニングモデルにおいて,顕著なパフォーマンス向上を実現することができることを示す。
本研究の結果から, 長期出力のキャパシティは, 既成モデルによって異なるが, 定性計算を用いて高品質なデータに調整するアプローチは, 実験したすべてのモデルに対して, 常に顕著な改善をもたらすことが示唆された。
- 参考スコア(独自算出の注目度): 3.3339400603549265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models rapidly evolve to support longer context, there is a notable disparity in their capability to generate output at greater lengths. Recent study suggests that the primary cause for this imbalance may arise from the lack of data with long-output during alignment training. In light of this observation, attempts are made to re-align foundation models with data that fills the gap, which result in models capable of generating lengthy output when instructed. In this paper, we explore the impact of data-quality in tuning a model for long output, and the possibility of doing so from the starting points of human-aligned (instruct or chat) models. With careful data curation, we show that it possible to achieve similar performance improvement in our tuned models, with only a small fraction of training data instances and compute. In addition, we assess the generalizability of such approaches by applying our tuning-recipes to several models. our findings suggest that, while capacities for generating long output vary across different models out-of-the-box, our approach to tune them with high-quality data using lite compute, consistently yields notable improvement across all models we experimented on. We have made public our curated dataset for tuning long-writing capability, the implementations of model tuning and evaluation, as well as the fine-tuned models, all of which can be openly-accessed.
- Abstract(参考訳): 大きな言語モデルは、より長いコンテキストをサポートするために急速に進化するので、より大きな長さで出力を生成する能力に顕著な相違がある。
近年の研究では、この不均衡の主な原因は、アライメントトレーニング中に長時間のアウトプットを伴うデータの欠如にあることが示唆されている。
この観測から、基礎モデルをギャップを埋めるデータで再調整する試みが行われ、その結果、指示されたときに長大な出力を生成できるモデルが得られる。
本稿では,長期出力のモデルチューニングにおけるデータ品質の影響について検討し,人間対応モデル(インストラクションやチャット)の開始点からその可能性を検討する。
注意深いデータキュレーションにより、トレーニングされたデータインスタンスと計算のごく一部で、チューニングされたモデルで同様のパフォーマンス改善を実現することができることを示す。
さらに,複数のモデルに調律規則を適用することで,そのような手法の一般化可能性を評価する。
我々の研究結果によると、長い出力を生成する能力は様々なモデルによって異なるが、定性的な計算を用いて高品質なデータで調整するアプローチは、実験したすべてのモデルに対して一貫して顕著な改善をもたらす。
我々は、長書き能力のチューニング、モデルチューニングと評価の実装、そしてこれら全てをオープンにアクセス可能な細調整されたモデルのためのキュレートされたデータセットを公開しました。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは包括的な実験プラットフォームを提供し、データとモデルの両方の迅速なイテレーションと洞察駆動による改善を可能にする。
また、徹底的なベンチマークから得られた実りある洞察を明らかにし、データ品質、多様性、モデル行動の間の重要な相互作用に光を当てています。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Towards Continually Learning Application Performance Models [1.2278517240988065]
機械学習ベースのパフォーマンスモデルは、重要なジョブスケジューリングとアプリケーションの最適化決定を構築するために、ますます使われています。
伝統的に、これらのモデルは、より多くのサンプルが時間とともに収集されるため、データ分布が変化しないと仮定する。
本研究では,分布のドリフトを考慮した継続的な学習性能モデルを構築し,破滅的な忘れを軽減し,一般化性を向上させる。
論文 参考訳(メタデータ) (2023-10-25T20:48:46Z) - Farzi Data: Autoregressive Data Distillation [34.39112473620335]
自動回帰機械学習タスクにおけるデータ蒸留について検討する。
本稿では、イベントシーケンスデータセットを少数の合成シーケンスに要約するFarziを提案する。
論文 参考訳(メタデータ) (2023-10-15T23:23:27Z) - Lag-Llama: Towards Foundation Models for Probabilistic Time Series
Forecasting [54.04430089029033]
本稿では,デコーダのみの変換器アーキテクチャに基づく時系列予測のための汎用基礎モデルであるLag-Llamaを提案する。
Lag-Llamaは、複数のドメインからの多様な時系列データの大規模なコーパスで事前訓練され、強力なゼロショット一般化能力を示す。
このような未確認データセットの比較的小さな部分で微調整を行うと、Lag-Llamaは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-12T12:29:32Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - GradTail: Learning Long-Tailed Data Using Gradient-based Sample
Weighting [15.418627530276598]
そこで本研究では, モデルトレーニングの初期段階において, 勾配点積の合意に基づくアプローチにより, 長期化データを早期に分離し, 標本重み付けを動的に行うことにより, 性能を向上できることを示す。
このような重み付けによって分類モデルと回帰モデルの両方のモデルの改善がもたらされるが、後者は長い尾の文献では比較的解明されていない。
論文 参考訳(メタデータ) (2022-01-16T00:37:39Z) - Generative time series models using Neural ODE in Variational
Autoencoders [0.0]
生成時系列モデリングのための変分オートエンコーダ設定にニューラル正規微分方程式を実装した。
開発と研究を容易にするために、コードに対するオブジェクト指向のアプローチが採られた。
論文 参考訳(メタデータ) (2022-01-12T14:38:11Z) - Exploring the Efficacy of Automatically Generated Counterfactuals for
Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。
いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-29T10:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。