Fugu-MT 論文翻訳(概要): WildLong: Synthesizing Realistic Long-Context Instruction Data at Scale

論文の概要: WildLong: Synthesizing Realistic Long-Context Instruction Data at Scale

arxiv url: http://arxiv.org/abs/2502.16684v1
Date: Sun, 23 Feb 2025 18:59:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.304829
Title: WildLong: Synthesizing Realistic Long-Context Instruction Data at Scale
Title（参考訳）: WildLong: 現実的なロングコンテキストインストラクションデータを大規模に合成する
Authors: Jiaxi Li, Xingxing Zhang, Xun Wang, Xiaolong Huang, Li Dong, Liang Wang, Si-Qing Chen, Wei Lu, Furu Wei,
Abstract要約: WildLongは、実際のユーザクエリからメタ情報を取り出して、スケーラブルなデータを生成する。クロスドキュメント比較やアグリゲーションといったマルチドキュメント推論をサポートする。ベンチマーク全体で、既存のオープンソースの長期コンテキスト最適化モデルを上回っている。
参考スコア（独自算出の注目度）: 86.25450054683172
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) with extended context windows enable tasks requiring extensive information integration but are limited by the scarcity of high-quality, diverse datasets for long-context instruction tuning. Existing data synthesis methods focus narrowly on objectives like fact retrieval and summarization, restricting their generalizability to complex, real-world tasks. WildLong extracts meta-information from real user queries, models co-occurrence relationships via graph-based methods, and employs adaptive generation to produce scalable data. It extends beyond single-document tasks to support multi-document reasoning, such as cross-document comparison and aggregation. Our models, finetuned on 150K instruction-response pairs synthesized using WildLong, surpasses existing open-source long-context-optimized models across benchmarks while maintaining strong performance on short-context tasks without incorporating supplementary short-context data. By generating a more diverse and realistic long-context instruction dataset, WildLong enhances LLMs' ability to generalize to complex, real-world reasoning over long contexts, establishing a new paradigm for long-context data synthesis.
Abstract（参考訳）: 拡張コンテキストウィンドウを備えた大規模言語モデル(LLM)は、広範囲な情報統合を必要とするタスクを可能にするが、長文命令チューニングのための高品質で多様なデータセットの不足によって制限される。既存のデータ合成手法は、事実検索や要約といった目的に限定し、複雑な実世界のタスクへの一般化性を制限する。 WildLongは、実際のユーザクエリからメタ情報を取り出し、グラフベースの手法で共起関係をモデル化し、適応生成を使用してスケーラブルなデータを生成する。クロスドキュメント比較やアグリゲーションといったマルチドキュメント推論をサポートするために、単一のドキュメントタスクを超えて拡張される。我々のモデルはWildLongを用いて合成された150Kの命令応答対に基づいて微調整され、ベンチマーク全体にわたって既存のオープンソース長文最適化モデルを超えながら、補足的な短文データを組み込むことなく、短文タスクの強力なパフォーマンスを維持している。より多様性があり現実的なロングコンテキスト命令データセットを生成することで、WildLongはLLMの長期コンテキスト上の複雑な実世界の推論への一般化能力を高め、長期コンテキストデータ合成のための新しいパラダイムを確立する。

関連論文リスト

LongMagpie: A Self-synthesis Method for Generating Large-scale Long-context Instructions [28.002824369635768]
LongMagpieは大規模なロングコンテキスト命令データを自動的に生成するフレームワークである。本稿では,LongMagpieが短文タスクにおける競合性能を維持しながら,長文タスクにおける先行的なパフォーマンスを実現することを示す。
論文参考訳（メタデータ） (2025-05-22T04:05:02Z)
Scaling Instruction-Tuned LLMs to Million-Token Contexts via Hierarchical Synthetic Data Generation [15.975325252309554]
本稿では,大規模言語モデルのコンテキストウィンドウを効率的に拡張するための新しい学習後合成データ生成戦略を提案する。我々のアプローチは、利用可能な実世界のデータの長さに制約されずに、任意に長いコンテキスト長まで強固に拡張する。我々は,RULERベンチマークとInfiniteBenchにおいて,最大100万トークンのコンテキスト長を持つモデルの有効性を実証した。
論文参考訳（メタデータ） (2025-04-17T04:46:57Z)
Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning [103.65680870130839]
本研究では,長期事前学習モデルの学習後段階の指導データを設計する方法について検討する。制御された研究では、短い文脈で調整されたモデルが、より長いコンテキストに効果的に一般化できることが判明した。これらの知見に基づいて,新しいデータ合成フレームワークであるコンテキスト合成を提案する。
論文参考訳（メタデータ） (2025-02-21T17:02:40Z)
Bootstrap Your Own Context Length [74.61148597039248]
長文言語モデルを学習するためのブートストラップ手法を提案する。提案したデータ合成ワークフローは、短いコンテキスト言語モデル、テキスト検索、文書収集のみを必要とする。我々は,オープンソースのLlama-3ファミリを用いて実験を行い,最大100万トークンまでコンテキスト長を拡張できることを実証した。
論文参考訳（メタデータ） (2024-12-25T10:08:54Z)
Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文参考訳（メタデータ） (2024-10-29T17:55:00Z)
ACER: Automatic Language Model Context Extension via Retrieval [36.40066695682234]
現在のオープンウェイト・ジェネリリストのロングコンテキストモデルは、実用的ロングコンテキスト処理タスクにはまだ欠けている。短文LMを用いて,この処理を模倣するテキスト自動データ合成パイプラインを構築した。短文LMは、タスク固有の長文機能を得るために、これらの自己生成データを使ってさらに調整される。
論文参考訳（メタデータ） (2024-10-11T17:57:06Z)
LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。我々は合成データを作成する2つの新しい方法を開発した。 LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-06-02T03:34:41Z)
Quest: Query-centric Data Synthesis Approach for Long-context Scaling of Large Language Model [22.07414287186125]
Questはクエリ中心のデータメソッドで、セマンティックに関連があるが多様なドキュメントを集約する。生成モデルを使用して、ドキュメント毎の潜在的なクエリを予測し、同様のクエリとキーワードでドキュメントをグループ化する。実験では、Questの長文タスクにおける優れたパフォーマンスを示し、最大100万トークンのコンテキスト長で顕著な結果が得られる。
論文参考訳（メタデータ） (2024-05-30T08:50:55Z)
Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文参考訳（メタデータ） (2024-05-07T01:56:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。