論文の概要: Quest: Query-centric Data Synthesis Approach for Long-context Scaling of Large Language Model
- arxiv url: http://arxiv.org/abs/2405.19846v1
- Date: Thu, 30 May 2024 08:50:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 15:18:46.698175
- Title: Quest: Query-centric Data Synthesis Approach for Long-context Scaling of Large Language Model
- Title(参考訳): Quest:大規模言語モデルの長文スケーリングのためのクエリ中心のデータ合成手法
- Authors: Chaochen Gao, Xing Wu, Qi Fu, Songlin Hu,
- Abstract要約: 本稿では,クエストと略されるクエリ中心のデータ合成手法を提案する。
我々は、複数の長文ベンチマークデータセットにおいて、コンテキスト長128kまでの長文データセットを合成し、他のデータ合成方法よりも大幅に優れています。
- 参考スコア(独自算出の注目度): 22.07414287186125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models, initially pre-trained with a limited context length, can better handle longer texts by continuing training on a corpus with extended contexts. However, obtaining effective long-context data is challenging due to the scarcity and uneven distribution of long documents across different domains. To address this issue, we propose a Query-centric data synthesis method, abbreviated as Quest. Quest is an interpretable method based on the observation that documents retrieved by similar queries are relevant but low-redundant, thus well-suited for synthesizing long-context data. The method is also scalable and capable of constructing large amounts of long-context data. Using Quest, we synthesize a long-context dataset up to 128k context length, significantly outperforming other data synthesis methods on multiple long-context benchmark datasets. In addition, we further verify that the Quest method is predictable through scaling law experiments, making it a reliable solution for advancing long-context models.
- Abstract(参考訳): 大規模な言語モデルは、最初は限られたコンテキスト長で事前訓練され、拡張されたコンテキストを持つコーパスでのトレーニングを継続することで、より長いテキストを扱うことができる。
しかし、複数のドメインにまたがる長文の不足と不均一な分散のため、有効な長文データを取得することは困難である。
この問題に対処するために,クエストと略されるクエリ中心のデータ合成手法を提案する。
Quest(クエスト)は、類似したクエリによって検索された文書は関連性はあるが、低冗長であり、長文データの合成に適しているという観察に基づく解釈可能な手法である。
この方法はスケーラブルで、大量の長文データを構築することができる。
Questを用いてコンテキスト長128kまでの長文データセットを合成し、複数の長文ベンチマークデータセットにおいて、他のデータ合成方法よりも大幅に優れています。
さらに,法実験のスケーリングによってQuest法が予測可能であることを確認する。
関連論文リスト
- Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。
我々は合成データを作成する2つの新しい方法を開発した。
LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-02T03:34:41Z) - Long Context is Not Long at All: A Prospector of Long-Dependency Data for Large Language Models [13.091271774417867]
長期コンテキストモデリング機能は、様々なアプリケーションにおいて大きな言語モデル(LLM)にとって重要である。
データマイニングフレームワーク textbfProLong を提案する。
複数のベンチマークに関する総合的な実験は、ProLongが長い依存関係を持つドキュメントを効果的に識別していることを示している。
論文 参考訳(メタデータ) (2024-05-28T07:36:56Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - LongWanjuan: Towards Systematic Measurement for Long Text Quality [102.46517202896521]
LongWanjuanは160B以上のトークンを持つ長文タスクのための言語モデルのトレーニングを強化するために特別に設計されたデータセットである。
LongWanjuanでは、長文を全体的、集約的、カオス的なタイプに分類し、長文品質の詳細な分析を可能にする。
我々は,LongWanjuan内で異なるタイプの長文を戦略的にバランスさせるデータ混合レシピを考案し,長文タスクにおけるモデル性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-21T07:27:18Z) - LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。
我々はSelf-Instructを使って長い命令追従データセットを構築した。
我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文 参考訳(メタデータ) (2024-01-31T18:29:39Z) - Training With "Paraphrasing the Original Text'' Improves Long-Context Performance [0.0]
大きな言語モデル(LLM)は進化を続けており、長いコンテキスト入力を扱うように設計されている。
本稿では,これらの問題の根幹を検索能力の欠如として認識し,長いコンテキストにおけるキー情報の空間性によって悪化する。
本稿では,LLMの長文情報抽出能力を高めることを目的とした,"Paraphrasing the Original Text'"という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-18T13:40:16Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。