論文の概要: Bootstrap Your Own Context Length
- arxiv url: http://arxiv.org/abs/2412.18860v1
- Date: Wed, 25 Dec 2024 10:08:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:27:36.589584
- Title: Bootstrap Your Own Context Length
- Title(参考訳): コンテキスト長のブートストラップ
- Authors: Liang Wang, Nan Yang, Xingxing Zhang, Xiaolong Huang, Furu Wei,
- Abstract要約: 長文言語モデルを学習するためのブートストラップ手法を提案する。
提案したデータ合成ワークフローは、短いコンテキスト言語モデル、テキスト検索、文書収集のみを必要とする。
我々は,オープンソースのLlama-3ファミリを用いて実験を行い,最大100万トークンまでコンテキスト長を拡張できることを実証した。
- 参考スコア(独自算出の注目度): 74.61148597039248
- License:
- Abstract: We introduce a bootstrapping approach to train long-context language models by exploiting their short-context capabilities only. Our method utilizes a simple agent workflow to synthesize diverse long-context instruction tuning data, thereby eliminating the necessity for manual data collection and annotation. The proposed data synthesis workflow requires only a short-context language model, a text retriever, and a document collection, all of which are readily accessible within the open-source ecosystem. Subsequently, language models are fine-tuned using the synthesized data to extend their context lengths. In this manner, we effectively transfer the short-context capabilities of language models to long-context scenarios through a bootstrapping process. We conduct experiments with the open-source Llama-3 family of models and demonstrate that our method can successfully extend the context length to up to 1M tokens, achieving superior performance across various benchmarks.
- Abstract(参考訳): 長文言語モデルを学習するためのブートストラップ手法を提案する。
提案手法は,手動データ収集やアノテーションの必要をなくし,多種多様な長文命令チューニングデータを合成するための単純なエージェントワークフローを利用する。
提案したデータ合成ワークフローは、短いコンテキスト言語モデル、テキストレトリバー、ドキュメントコレクションのみを必要とする。
その後、合成データを用いて言語モデルを微調整し、文脈長を拡張する。
このようにして、ブートストラッププロセスを通じて、言語モデルの短文機能を長文のシナリオに効果的に転送する。
我々は,オープンソースのLlama-3ファミリを用いて実験を行い,最大100万トークンまでコンテキスト長を拡張できることを示す。
関連論文リスト
- ACER: Automatic Language Model Context Extension via Retrieval [36.40066695682234]
現在のオープンウェイト・ジェネリリストのロングコンテキストモデルは、実用的ロングコンテキスト処理タスクにはまだ欠けている。
短文LMを用いて,この処理を模倣するテキスト自動データ合成パイプラインを構築した。
短文LMは、タスク固有の長文機能を得るために、これらの自己生成データを使ってさらに調整される。
論文 参考訳(メタデータ) (2024-10-11T17:57:06Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning [68.43706033424378]
本研究では,大規模言語モデル(MLLM)において,テキスト中のテキスト長を効率的に向上する革新的な手法を提案する。
視覚トークンを用いて長文のテキストを処理するビジュアルインコンテキストテキスト処理(VisInContext)を提案する。
この技術は、トレーニングおよび推論段階の両方において、GPUメモリ使用率と浮動小数点演算(FLOP)を大幅に削減する。
論文 参考訳(メタデータ) (2024-06-04T17:59:25Z) - LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。
我々は合成データを作成する2つの新しい方法を開発した。
LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-02T03:34:41Z) - Quest: Query-centric Data Synthesis Approach for Long-context Scaling of Large Language Model [22.07414287186125]
Questはクエリ中心のデータメソッドで、セマンティックに関連があるが多様なドキュメントを集約する。
生成モデルを使用して、ドキュメント毎の潜在的なクエリを予測し、同様のクエリとキーワードでドキュメントをグループ化する。
実験では、Questの長文タスクにおける優れたパフォーマンスを示し、最大100万トークンのコンテキスト長で顕著な結果が得られる。
論文 参考訳(メタデータ) (2024-05-30T08:50:55Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。