Fugu-MT 論文翻訳(概要): Long Context is Not Long at All: A Prospector of Long-Dependency Data for Large Language Models

論文の概要: Long Context is Not Long at All: A Prospector of Long-Dependency Data for Large Language Models

arxiv url: http://arxiv.org/abs/2405.17915v1
Date: Tue, 28 May 2024 07:36:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 19:47:39.180976
Title: Long Context is Not Long at All: A Prospector of Long-Dependency Data for Large Language Models
Title（参考訳）: 長期コンテキストは長くない:大規模言語モデルのための長期依存データの展望
Authors: Longze Chen, Ziqiang Liu, Wanwei He, Yunshui Li, Run Luo, Min Yang,
Abstract要約: 長期コンテキストモデリング機能は、様々なアプリケーションにおいて大きな言語モデル(LLM)にとって重要である。データマイニングフレームワーク textbfProLong を提案する。複数のベンチマークに関する総合的な実験は、ProLongが長い依存関係を持つドキュメントを効果的に識別していることを示している。
参考スコア（独自算出の注目度）: 13.091271774417867
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Long-context modeling capabilities are important for large language models (LLMs) in various applications. However, directly training LLMs with long context windows is insufficient to enhance this capability since some training samples do not exhibit strong semantic dependencies across long contexts. In this study, we propose a data mining framework \textbf{ProLong} that can assign each training sample with a long dependency score, which can be used to rank and filter samples that are more advantageous for enhancing long-context modeling abilities in LLM training. Specifically, we first use delta perplexity scores to measure the \textit{Dependency Strength} between text segments in a given document. Then we refine this metric based on the \textit{Dependency Distance} of these segments to incorporate spatial relationships across long-contexts. Final results are calibrated with a \textit{Dependency Specificity} metric to prevent trivial dependencies introduced by repetitive patterns. Moreover, a random sampling approach is proposed to optimize the computational efficiency of ProLong. Comprehensive experiments on multiple benchmarks indicate that ProLong effectively identifies documents that carry long dependencies and LLMs trained on these documents exhibit significantly enhanced long-context modeling capabilities.
Abstract（参考訳）: 長いコンテキストモデリング機能は、様々なアプリケーションにおいて大きな言語モデル(LLM)にとって重要である。しかし、長いコンテキストウィンドウでLLMを直接訓練することは、長いコンテキスト間で強いセマンティック依存関係を示さないトレーニングサンプルがあるため、この機能を強化するには不十分である。そこで本研究では,LLMトレーニングにおける長文モデリング能力の向上に有効であるサンプルのランク付けやフィルタリングに使用可能な,各トレーニングサンプルに長文依存スコアを割り当てることのできるデータマイニングフレームワークである「textbf{ProLong}」を提案する。具体的には,文書中のテキストセグメント間の‘textit{Dependency Strength}’を測定するためにデルタパープレキシティスコアを使用する。次に、これらのセグメントの \textit{Dependency Distance} に基づいて、このメトリックを洗練し、長文間の空間的関係を組み込む。最終的な結果は、繰り返しパターンによって導入された自明な依存関係を防ぐために、‘textit{Dependency Specificity} メトリックでキャリブレーションされる。さらに,ProLongの計算効率を最適化するために,ランダムサンプリング手法を提案する。複数のベンチマークの総合的な実験により、ProLongは、長い依存関係を持つ文書を効果的に識別し、これらの文書で訓練されたLLMは、大幅に拡張された長期コンテキストモデリング能力を示すことが示されている。

関連論文リスト

Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning [103.65680870130839]
本研究では,長期事前学習モデルの学習後段階の指導データを設計する方法について検討する。制御された研究では、短い文脈で調整されたモデルが、より長いコンテキストに効果的に一般化できることが判明した。これらの知見に基づいて,新しいデータ合成フレームワークであるコンテキスト合成を提案する。
論文参考訳（メタデータ） (2025-02-21T17:02:40Z)
NExtLong: Toward Effective Long-Context Training without Long Documents [28.002824369635768]
我々はNextLongを提案する。NextLongは、Negative Document Extensionを通じて、長文データのための新しいフレームワークである。 NExtLongは文書を複数のメタチャンクに分解し、事前学習したコーパスから取得したハードネガティブなイントラクタをインターリーブすることによってコンテキストを拡張する。大規模な実験により、NExtLongは既存の長文合成手法と比較して、大幅な性能向上を実現している。
論文参考訳（メタデータ） (2025-01-22T10:01:54Z)
Selecting Influential Samples for Long Context Alignment via Homologous Models' Guidance and Contextual Awareness Measurement [62.87020831987625]
本稿では,長距離依存関係に富む影響力のある,高品質なサンプルを識別する新しいフレームワークを提案する。我々は、長距離依存を効果的にフレーム化するために、影響力のあるデータとして最も難しいサンプルを選択する。実験により, GATEAUは長距離依存関係に富んだサンプルを効果的に同定し, これらのサンプルに基づいて訓練したモデルにより, より優れた指示追従と長文理解能力を示すことが示された。
論文参考訳（メタデータ） (2024-10-21T04:30:53Z)
How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。 ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文参考訳（メタデータ） (2024-10-03T16:46:52Z)
LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。我々は合成データを作成する2つの新しい方法を開発した。 LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-06-02T03:34:41Z)
Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文参考訳（メタデータ） (2024-05-07T01:56:22Z)
LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。我々はSelf-Instructを使って長い命令追従データセットを構築した。我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文参考訳（メタデータ） (2024-01-31T18:29:39Z)
Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文参考訳（メタデータ） (2023-09-27T21:41:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。