論文の概要: Long Context Alignment with Short Instructions and Synthesized Positions
- arxiv url: http://arxiv.org/abs/2405.03939v1
- Date: Tue, 7 May 2024 01:56:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 15:38:26.448589
- Title: Long Context Alignment with Short Instructions and Synthesized Positions
- Title(参考訳): 短い指示と合成位置を持つ長文脈アライメント
- Authors: Wenhao Wu, Yizhong Wang, Yao Fu, Xiang Yue, Dawei Zhu, Sujian Li,
- Abstract要約: 本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
- 参考スコア(独自算出の注目度): 56.1267385315404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effectively handling instructions with extremely long context remains a challenge for Large Language Models (LLMs), typically necessitating high-quality long data and substantial computational resources. This paper introduces Step-Skipping Alignment (SkipAlign), a new technique designed to enhance the long-context capabilities of LLMs in the phase of alignment without the need for additional efforts beyond training with original data length. SkipAlign is developed on the premise that long-range dependencies are fundamental to enhancing an LLM's capacity of long context. Departing from merely expanding the length of input samples, SkipAlign synthesizes long-range dependencies from the aspect of positions indices. This is achieved by the strategic insertion of skipped positions within instruction-following samples, which utilizes the semantic structure of the data to effectively expand the context. Through extensive experiments on base models with a variety of context window sizes, SkipAlign demonstrates its effectiveness across a spectrum of long-context tasks. Particularly noteworthy is that with a careful selection of the base model and alignment datasets, SkipAlign with only 6B parameters achieves it's best performance and comparable with strong baselines like GPT-3.5-Turbo-16K on LongBench.
- Abstract(参考訳): 非常に長いコンテキストで命令を効果的に処理することは、高品質の長いデータとかなりの計算資源を必要とする大規模言語モデル(LLM)にとって依然として課題である。
本稿では,ステップ・スキッピング・アライメント(SkipAlign, SkipAlign, SkipAlign, SkipAlign, SkipAlign)について紹介する。
SkipAlignは、LLMの長期的コンテクスト能力を高めるために、長距離依存が基本的なものであるという前提で開発されている。
SkipAlignは単に入力サンプルの長さを拡大するだけでなく、位置インデックスの側面から長距離依存関係を合成する。
これは、データの意味構造を利用してコンテキストを効果的に拡張する命令追従サンプルにスキップされた位置を戦略的に挿入することで達成される。
さまざまなコンテキストウィンドウサイズを持つベースモデルに関する広範な実験を通じて、SkipAlignは長いコンテキストタスクの範囲でその効果を実証している。
特に注目すべきは、ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
関連論文リスト
- Selecting Influential Samples for Long Context Alignment via Homologous Models' Guidance and Contextual Awareness Measurement [62.87020831987625]
本稿では,長距離依存関係に富む影響力のある,高品質なサンプルを識別する新しいフレームワークを提案する。
我々は、長距離依存を効果的にフレーム化するために、影響力のあるデータとして最も難しいサンプルを選択する。
実験により, GATEAUは長距離依存関係に富んだサンプルを効果的に同定し, これらのサンプルに基づいて訓練したモデルにより, より優れた指示追従と長文理解能力を示すことが示された。
論文 参考訳(メタデータ) (2024-10-21T04:30:53Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。
我々は合成データを作成する2つの新しい方法を開発した。
LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-02T03:34:41Z) - Long Context is Not Long at All: A Prospector of Long-Dependency Data for Large Language Models [13.091271774417867]
長期コンテキストモデリング機能は、様々なアプリケーションにおいて大きな言語モデル(LLM)にとって重要である。
データマイニングフレームワーク textbfProLong を提案する。
複数のベンチマークに関する総合的な実験は、ProLongが長い依存関係を持つドキュメントを効果的に識別していることを示している。
論文 参考訳(メタデータ) (2024-05-28T07:36:56Z) - LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。
我々はSelf-Instructを使って長い命令追従データセットを構築した。
我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文 参考訳(メタデータ) (2024-01-31T18:29:39Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。