論文の概要: Modular Techniques for Synthetic Long-Context Data Generation in Language Model Training and Evaluation
- arxiv url: http://arxiv.org/abs/2509.01185v1
- Date: Mon, 01 Sep 2025 07:08:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.572307
- Title: Modular Techniques for Synthetic Long-Context Data Generation in Language Model Training and Evaluation
- Title(参考訳): 言語モデル学習と評価における合成長文脈データ生成のためのモジュール手法
- Authors: Seganrasan Subramanian, Abhigya Verma,
- Abstract要約: 本研究は,大規模言語モデル (LLM) との即時相互作用による長文データ生成のためのモジュラーフレームワークを導入する。
このフレームワークは、Supervised Fine-Tuning (SFT)、Direct Preference Optimization (DPO)、Group Relative Policy Optimization (GRPO)など、複数のトレーニングとアライメントの目標をサポートする。
マルチターン対話、文書入力出力ペア、検証可能な命令応答タスク、長文推論例の4つのコア生成パラダイムを含んでいる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability of large language models (LLMs) to process and reason over long textual inputs is critical for a wide range of real-world applications. However, progress in this area is significantly constrained by the absence of high-quality, diverse, and verifiable long-context datasets suitable for both training and evaluation. This work introduces a modular, extensible framework for synthetic long-context data generation via prompt-based interaction with LLMs. The framework supports multiple training and alignment objectives, including Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), and Group Relative Policy Optimization (GRPO). It encompasses four core generation paradigms: multi-turn conversational dialogues, document-grounded input-output pairs, verifiable instruction-response tasks, and long-context reasoning examples. Through templated prompting, a model-agnostic architecture, and metadata-enriched outputs, the proposed approach facilitates scalable, controllable, and purpose-aligned dataset creation for advancing long-context capabilities in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の長いテキスト入力を処理し、推論する能力は、幅広い現実世界のアプリケーションにとって重要である。
しかし、この領域の進歩は、訓練と評価の両方に適した高品質で多様で検証可能な長文データセットがないことによって著しく制約されている。
この研究は、LLMとの即時インタラクションを介して、合成長文データ生成のためのモジュラー拡張可能なフレームワークを導入している。
このフレームワークは、Supervised Fine-Tuning (SFT)、Direct Preference Optimization (DPO)、Group Relative Policy Optimization (GRPO)など、複数のトレーニングとアライメントの目標をサポートする。
マルチターン対話、文書入力出力ペア、検証可能な命令応答タスク、長文推論例の4つのコア生成パラダイムを含んでいる。
テンプレートプロンプト,モデルに依存しないアーキテクチャ,メタデータに富んだアウトプットを通じて,LLMの長文機能向上のためのスケーラブルで制御可能な,目的に沿ったデータセット作成を容易にする。
関連論文リスト
- GraSP: A Unified Graph-Based Framework for Scalable Generation, Quality Tagging, and Management of Synthetic Data for SFT and DPO [0.10051474951635875]
大規模言語モデル(LLM)のための総合的な合成データ生成フレームワークを提案する。
本手法では,手作業による介入を最小限に抑えた複雑な対話フローをモデル化可能なモジュール型および構成型パイプラインを用いる。
得られたデータセットは、SFTとDPOの両方のユースケースをサポートするフレキシブルなスキーマの下で構成され、多様なトレーニングへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-08-21T10:35:41Z) - Chunks as Arms: Multi-Armed Bandit-Guided Sampling for Long-Context LLM Preference Optimization [56.97588709890706]
LongMab-POは、長文モデリングタスクのための高品質で多様な応答を生成する新しいフレームワークである。
実験の結果,LongMab-POは嗜好データペアの多様性と品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-19T16:33:55Z) - Writing-RL: Advancing Long-form Writing via Adaptive Curriculum Reinforcement Learning [55.41828729623907]
本稿では,適応型カリキュラム強化学習フレームワーク「Ling-RL: An Adaptive Curriculum Reinforcement Learning」について紹介する。
フレームワークは3つの重要なコンポーネントで構成されている。高い学習可能性を持つサンプルを優先するMargin-aware Data Selection戦略、差別的な学習信号を提供するPairwise Comparison Rewardメカニズム、動的参照スケジューリングアプローチである。
論文 参考訳(メタデータ) (2025-06-06T05:40:39Z) - WildLong: Synthesizing Realistic Long-Context Instruction Data at Scale [86.25450054683172]
WildLongは、実際のユーザクエリからメタ情報を取り出して、スケーラブルなデータを生成する。
クロスドキュメント比較やアグリゲーションといったマルチドキュメント推論をサポートする。
ベンチマーク全体で、既存のオープンソースの長期コンテキスト最適化モデルを上回っている。
論文 参考訳(メタデータ) (2025-02-23T18:59:09Z) - Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning [103.65680870130839]
本研究では,長期事前学習モデルの学習後段階の指導データを設計する方法について検討する。
制御された研究では、短い文脈で調整されたモデルが、より長いコンテキストに効果的に一般化できることが判明した。
これらの知見に基づいて,新しいデータ合成フレームワークであるコンテキスト合成を提案する。
論文 参考訳(メタデータ) (2025-02-21T17:02:40Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - Advancing Transformer Architecture in Long-Context Large Language
Models: A Comprehensive Survey [18.930417261395906]
トランスフォーマーベースの大規模言語モデル(LLM)は、知識ベース、ヒューマンインタフェース、動的エージェントなど様々な分野に適用されている。
本稿では,トランスフォーマーをベースとしたLLMアーキテクチャの最近の進歩について,LLMの長期的コンテキスト能力の向上を目的とした調査を行う。
論文 参考訳(メタデータ) (2023-11-21T04:59:17Z) - Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。