論文の概要: LongMagpie: A Self-synthesis Method for Generating Large-scale Long-context Instructions
- arxiv url: http://arxiv.org/abs/2505.17134v1
- Date: Thu, 22 May 2025 04:05:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.596208
- Title: LongMagpie: A Self-synthesis Method for Generating Large-scale Long-context Instructions
- Title(参考訳): LongMagpie:大規模Long-context命令の生成のための自己合成法
- Authors: Chaochen Gao, Xing Wu, Zijia Lin, Debing Zhang, Songlin Hu,
- Abstract要約: LongMagpieは大規模なロングコンテキスト命令データを自動的に生成するフレームワークである。
本稿では,LongMagpieが短文タスクにおける競合性能を維持しながら,長文タスクにおける先行的なパフォーマンスを実現することを示す。
- 参考スコア(独自算出の注目度): 28.002824369635768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality long-context instruction data is essential for aligning long-context large language models (LLMs). Despite the public release of models like Qwen and Llama, their long-context instruction data remains proprietary. Human annotation is costly and challenging, while template-based synthesis methods limit scale, diversity, and quality. We introduce LongMagpie, a self-synthesis framework that automatically generates large-scale long-context instruction data. Our key insight is that aligned long-context LLMs, when presented with a document followed by special tokens preceding a user turn, auto-regressively generate contextually relevant queries. By harvesting these document-query pairs and the model's responses, LongMagpie produces high-quality instructions without human effort. Experiments on HELMET, RULER, and Longbench v2 demonstrate that LongMagpie achieves leading performance on long-context tasks while maintaining competitive performance on short-context tasks, establishing it as a simple and effective approach for open, diverse, and scalable long-context instruction data synthesis.
- Abstract(参考訳): 高品質の長文命令データは、長文大言語モデル(LLM)の整列に不可欠である。
QwenやLlamaのようなモデルが一般公開されているにもかかわらず、長いコンテキストの命令データはまだプロプライエタリである。
テンプレートベースの合成手法では、スケール、多様性、品質が制限される。
本稿ではLongMagpieについて紹介する。LongMagpieは大規模長文命令データを自動的に生成する自己合成フレームワークである。
キーとなる洞察は、長いコンテキストのLLMが、ユーザのターンの前に特別なトークンが続くドキュメントで提示されると、自動回帰的にコンテキスト関連クエリを生成します。
これらの文書クエリ対とモデルの応答を収穫することにより、LongMagpieは人間の努力なしに高品質な命令を生成する。
HELMET、RULER、Longbench v2の実験では、LongMagpieは短いコンテキストタスク上での競合性能を維持しながら、長いコンテキストタスクにおける主要なパフォーマンスを実現し、オープンで多様でスケーラブルな長コンテキスト命令データ合成のためのシンプルで効果的なアプローチとして確立している。
関連論文リスト
- WildLong: Synthesizing Realistic Long-Context Instruction Data at Scale [86.25450054683172]
WildLongは、実際のユーザクエリからメタ情報を取り出して、スケーラブルなデータを生成する。
クロスドキュメント比較やアグリゲーションといったマルチドキュメント推論をサポートする。
ベンチマーク全体で、既存のオープンソースの長期コンテキスト最適化モデルを上回っている。
論文 参考訳(メタデータ) (2025-02-23T18:59:09Z) - Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning [103.65680870130839]
本研究では,長期事前学習モデルの学習後段階の指導データを設計する方法について検討する。
制御された研究では、短い文脈で調整されたモデルが、より長いコンテキストに効果的に一般化できることが判明した。
これらの知見に基づいて,新しいデータ合成フレームワークであるコンテキスト合成を提案する。
論文 参考訳(メタデータ) (2025-02-21T17:02:40Z) - NExtLong: Toward Effective Long-Context Training without Long Documents [28.002824369635768]
我々はNextLongを提案する。NextLongは、Negative Document Extensionを通じて、長文データのための新しいフレームワークである。
NExtLongは文書を複数のメタチャンクに分解し、事前学習したコーパスから取得したハードネガティブなイントラクタをインターリーブすることによってコンテキストを拡張する。
大規模な実験により、NExtLongは既存の長文合成手法と比較して、大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-22T10:01:54Z) - Bootstrap Your Own Context Length [74.61148597039248]
長文言語モデルを学習するためのブートストラップ手法を提案する。
提案したデータ合成ワークフローは、短いコンテキスト言語モデル、テキスト検索、文書収集のみを必要とする。
我々は,オープンソースのLlama-3ファミリを用いて実験を行い,最大100万トークンまでコンテキスト長を拡張できることを実証した。
論文 参考訳(メタデータ) (2024-12-25T10:08:54Z) - ACER: Automatic Language Model Context Extension via Retrieval [36.40066695682234]
現在のオープンウェイト・ジェネリリストのロングコンテキストモデルは、実用的ロングコンテキスト処理タスクにはまだ欠けている。
短文LMを用いて,この処理を模倣するテキスト自動データ合成パイプラインを構築した。
短文LMは、タスク固有の長文機能を得るために、これらの自己生成データを使ってさらに調整される。
論文 参考訳(メタデータ) (2024-10-11T17:57:06Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。
我々はSelf-Instructを使って長い命令追従データセットを構築した。
我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文 参考訳(メタデータ) (2024-01-31T18:29:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。