論文の概要: LiteLong: Resource-Efficient Long-Context Data Synthesis for LLMs
- arxiv url: http://arxiv.org/abs/2509.15568v1
- Date: Fri, 19 Sep 2025 04:07:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.986864
- Title: LiteLong: Resource-Efficient Long-Context Data Synthesis for LLMs
- Title(参考訳): LiteLong: LLMのための資源効率の良い長期データ合成
- Authors: Junlong Jia, Xing Wu, Chaochen Gao, Ziyang Chen, Zijia Lin, Zhongzhi Li, Weinong Wang, Haotian Xu, Donghui Jin, Debing Zhang, Binghui Guo,
- Abstract要約: 高品質の長文データは、大規模言語モデルのトレーニングに不可欠である。
長文データを合成する資源効率の高いLiteLongを提案する。
- 参考スコア(独自算出の注目度): 26.566444932983526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality long-context data is essential for training large language models (LLMs) capable of processing extensive documents, yet existing synthesis approaches using relevance-based aggregation face challenges of computational efficiency. We present LiteLong, a resource-efficient method for synthesizing long-context data through structured topic organization and multi-agent debate. Our approach leverages the BISAC book classification system to provide a comprehensive hierarchical topic organization, and then employs a debate mechanism with multiple LLMs to generate diverse, high-quality topics within this structure. For each topic, we use lightweight BM25 retrieval to obtain relevant documents and concatenate them into 128K-token training samples. Experiments on HELMET and Ruler benchmarks demonstrate that LiteLong achieves competitive long-context performance and can seamlessly integrate with other long-dependency enhancement methods. LiteLong makes high-quality long-context data synthesis more accessible by reducing both computational and data engineering costs, facilitating further research in long-context language training.
- Abstract(参考訳): 大規模文書を処理できる大規模言語モデル(LLM)の訓練には高品質な長文データが必要であるが、関連性に基づく集約を用いた既存の合成手法は計算効率の課題に直面している。
提案するLiteLongは、構造化されたトピック組織とマルチエージェントの議論を通じて、長文データを合成するリソース効率のよい方法である。
提案手法は,BISACの書籍分類システムを利用して包括的な階層的なトピック組織を提供し,複数のLPMを用いた議論機構を用いて,この構造内での多様で高品質なトピックを生成する。
各トピックに対して,軽量なBM25検索を用いて関連文書を取得し,それらを128Kのトレーニングサンプルにまとめる。
HELMET と Ruler ベンチマークの実験は、LiteLong が競合する長時間コンテキスト性能を実現し、他の長距離拡張手法とシームレスに統合できることを実証している。
LiteLongは、計算とデータエンジニアリングの両方のコストを削減することで、高品質な長文データ合成をよりアクセスしやすくし、長文言語訓練におけるさらなる研究を促進する。
関連論文リスト
- Modular Techniques for Synthetic Long-Context Data Generation in Language Model Training and Evaluation [0.0]
本研究は,大規模言語モデル (LLM) との即時相互作用による長文データ生成のためのモジュラーフレームワークを導入する。
このフレームワークは、Supervised Fine-Tuning (SFT)、Direct Preference Optimization (DPO)、Group Relative Policy Optimization (GRPO)など、複数のトレーニングとアライメントの目標をサポートする。
マルチターン対話、文書入力出力ペア、検証可能な命令応答タスク、長文推論例の4つのコア生成パラダイムを含んでいる。
論文 参考訳(メタデータ) (2025-09-01T07:08:45Z) - Scaling Instruction-Tuned LLMs to Million-Token Contexts via Hierarchical Synthetic Data Generation [15.975325252309554]
本稿では,大規模言語モデルのコンテキストウィンドウを効率的に拡張するための新しい学習後合成データ生成戦略を提案する。
我々のアプローチは、利用可能な実世界のデータの長さに制約されずに、任意に長いコンテキスト長まで強固に拡張する。
我々は,RULERベンチマークとInfiniteBenchにおいて,最大100万トークンのコンテキスト長を持つモデルの有効性を実証した。
論文 参考訳(メタデータ) (2025-04-17T04:46:57Z) - WildLong: Synthesizing Realistic Long-Context Instruction Data at Scale [86.25450054683172]
WildLongは、実際のユーザクエリからメタ情報を取り出して、スケーラブルなデータを生成する。
クロスドキュメント比較やアグリゲーションといったマルチドキュメント推論をサポートする。
ベンチマーク全体で、既存のオープンソースの長期コンテキスト最適化モデルを上回っている。
論文 参考訳(メタデータ) (2025-02-23T18:59:09Z) - Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning [103.65680870130839]
本研究では,長期事前学習モデルの学習後段階の指導データを設計する方法について検討する。
制御された研究では、短い文脈で調整されたモデルが、より長いコンテキストに効果的に一般化できることが判明した。
これらの知見に基づいて,新しいデータ合成フレームワークであるコンテキスト合成を提案する。
論文 参考訳(メタデータ) (2025-02-21T17:02:40Z) - Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。
我々は合成データを作成する2つの新しい方法を開発した。
LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-02T03:34:41Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。