論文の概要: Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning
- arxiv url: http://arxiv.org/abs/2502.15592v1
- Date: Fri, 21 Feb 2025 17:02:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:11:05.625237
- Title: Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning
- Title(参考訳): 短時間から長期の一般化:長期学習のための効果的なデータ合成
- Authors: Wenhao Zhu, Pinzhen Chen, Hanxu Hu, Shujian Huang, Fei Yuan, Jiajun Chen, Alexandra Birch,
- Abstract要約: 本研究では,長期事前学習モデルの学習後段階の指導データを設計する方法について検討する。
制御された研究では、短い文脈で調整されたモデルが、より長いコンテキストに効果的に一般化できることが判明した。
これらの知見に基づいて,新しいデータ合成フレームワークであるコンテキスト合成を提案する。
- 参考スコア(独自算出の注目度): 103.65680870130839
- License:
- Abstract: Long-context modelling for large language models (LLMs) has been a key area of recent research because many real world use cases require reasoning over longer inputs such as documents. The focus of research into modelling long context has been on how to model position and there has been little investigation into other important aspects of language modelling such as instruction tuning. Long context training examples are challenging and expensive to create and use. In this paper, we investigate how to design instruction data for the post-training phase of a long context pre-trained model: how much and what type of context is needed for optimal and efficient post-training. Our controlled study reveals that models instruction-tuned on short contexts can effectively generalize to longer ones, while also identifying other critical factors such as instruction difficulty and context composition. Based on these findings, we propose context synthesis, a novel data synthesis framework that leverages off-the-shelf LLMs to generate extended background contexts for high-quality instruction-answer pairs. Experiment results on the document-level benchmark (LongBench) demonstrate that our proposed approach outperforms previous instruction synthesis approaches and comes close to the performance of human-annotated long-context instruction data. The project will be available at: https://github.com/NJUNLP/context-synthesis.
- Abstract(参考訳): 大規模言語モデル(LLM)の長期コンテキストモデリングは、多くの実世界のユースケースが文書などの長い入力以上の推論を必要とするため、最近の研究において重要な領域である。
長期の文脈をモデル化する研究の焦点は、位置をモデル化する方法であり、命令チューニングのような言語モデリングの他の重要な側面についてはほとんど研究されていない。
長期のコンテキストトレーニングの例は、作成と使用が困難で費用がかかる。
本稿では,長期事前学習モデルにおける学習後段階の指導データの設計方法について検討する。
制御された研究では、短い文脈で調整されたモデルが、命令難易度や文脈構成といった他の重要な要因を識別しながら、より長いコンテキストに効果的に一般化できることが明らかになった。
そこで本研究では,既製のLCMを利用して,高品質なインストラクション・アンサー・ペアのための拡張背景コンテキストを生成する新しいデータ合成フレームワークであるコンテキスト合成を提案する。
文書レベルベンチマーク(LongBench)実験の結果、提案手法は従来の命令合成手法よりも優れており、人間の注釈付き長文命令データの性能に近いことがわかった。
プロジェクトは以下の通りである。 https://github.com/NJUNLP/context- synthesis。
関連論文リスト
- Bootstrap Your Own Context Length [74.61148597039248]
長文言語モデルを学習するためのブートストラップ手法を提案する。
提案したデータ合成ワークフローは、短いコンテキスト言語モデル、テキスト検索、文書収集のみを必要とする。
我々は,オープンソースのLlama-3ファミリを用いて実験を行い,最大100万トークンまでコンテキスト長を拡張できることを実証した。
論文 参考訳(メタデータ) (2024-12-25T10:08:54Z) - ACER: Automatic Language Model Context Extension via Retrieval [36.40066695682234]
現在のオープンウェイト・ジェネリリストのロングコンテキストモデルは、実用的ロングコンテキスト処理タスクにはまだ欠けている。
短文LMを用いて,この処理を模倣するテキスト自動データ合成パイプラインを構築した。
短文LMは、タスク固有の長文機能を得るために、これらの自己生成データを使ってさらに調整される。
論文 参考訳(メタデータ) (2024-10-11T17:57:06Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - Michelangelo: Long Context Evaluations Beyond Haystacks via Latent Structure Queries [54.325172923155414]
ミケランジェロ(Michelangelo)は、大規模言語モデルに対する最小限の、合成的で、未学習の長文推論評価である。
この評価は、任意に長いコンテキストに対する評価のための、新しく統一された枠組みによって導出される。
論文 参考訳(メタデータ) (2024-09-19T10:38:01Z) - A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。
長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。
我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文 参考訳(メタデータ) (2024-09-18T17:53:17Z) - Long Context is Not Long at All: A Prospector of Long-Dependency Data for Large Language Models [13.091271774417867]
長期コンテキストモデリング機能は、様々なアプリケーションにおいて大きな言語モデル(LLM)にとって重要である。
データマイニングフレームワーク textbfProLong を提案する。
複数のベンチマークに関する総合的な実験は、ProLongが長い依存関係を持つドキュメントを効果的に識別していることを示している。
論文 参考訳(メタデータ) (2024-05-28T07:36:56Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。