論文の概要: Flora: Effortless Context Construction to Arbitrary Length and Scale
- arxiv url: http://arxiv.org/abs/2507.19786v1
- Date: Sat, 26 Jul 2025 04:21:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.187009
- Title: Flora: Effortless Context Construction to Arbitrary Length and Scale
- Title(参考訳): Flora: 任意長とスケールへの不運なコンテキスト構築
- Authors: Tianxiang Chen, Zhentao Tan, Xiaofan Bo, Yue Wu, Tao Gong, Qi Chu, Jieping Ye, Nenghai Yu,
- Abstract要約: 本稿では,人間/LLMフリーの長文構成戦略であるFloraを紹介する。
Llama3-8B-InstructとQwQ-32Bの実験では、Floraは3つの長文のベンチマークで優れており、短文のタスクでは強いパフォーマンスを維持している。
- 参考スコア(独自算出の注目度): 71.12886910497284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effectively handling long contexts is challenging for Large Language Models (LLMs) due to the rarity of long texts, high computational demands, and substantial forgetting of short-context abilities. Recent approaches have attempted to construct long contexts for instruction tuning, but these methods often require LLMs or human interventions, which are both costly and limited in length and diversity. Also, the drop in short-context performances of present long-context LLMs remains significant. In this paper, we introduce Flora, an effortless (human/LLM-free) long-context construction strategy. Flora can markedly enhance the long-context performance of LLMs by arbitrarily assembling short instructions based on categories and instructing LLMs to generate responses based on long-context meta-instructions. This enables Flora to produce contexts of arbitrary length and scale with rich diversity, while only slightly compromising short-context performance. Experiments on Llama3-8B-Instruct and QwQ-32B show that LLMs enhanced by Flora excel in three long-context benchmarks while maintaining strong performances in short-context tasks. Our data-construction code is available at \href{https://github.com/txchen-USTC/Flora}{https://github.com/txchen-USTC/Flora}.
- Abstract(参考訳): 長い文脈を効果的に扱うことは、長文の希薄さ、高い計算要求、短文能力の大幅な忘れが原因で、Large Language Models (LLM) にとって困難である。
近年のアプローチでは、命令チューニングのための長いコンテキストの構築が試みられているが、これらの手法はLLMや人間による介入を必要とすることが多く、コストがかかり、長さや多様性が制限されている。
また、現在の長文LLMの短文性能の低下は依然として顕著である。
本稿では,人間/LLMフリーの長文構成戦略であるFloraを紹介する。
Floraは、カテゴリに基づいて短い命令を任意に組み立て、LLMに長文のメタ命令に基づいて応答を生成するように指示することで、LLMの長文性能を著しく向上させることができる。
これによりFloraは、任意の長さのコンテキストと、豊富な多様性を持つスケールを生成できると同時に、短いコンテキストのパフォーマンスをわずかに妥協するだけである。
Llama3-8B-Instruct と QwQ-32B の実験では、Flora によって拡張された LLM が3つの長文ベンチマークで優れており、短文タスクでは強い性能を維持している。
我々のデータ構築コードは \href{https://github.com/txchen-USTC/Flora}{https://github.com/txchen-USTC/Flora} で利用可能です。
関連論文リスト
- LongMagpie: A Self-synthesis Method for Generating Large-scale Long-context Instructions [28.002824369635768]
LongMagpieは大規模なロングコンテキスト命令データを自動的に生成するフレームワークである。
本稿では,LongMagpieが短文タスクにおける競合性能を維持しながら,長文タスクにおける先行的なパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-05-22T04:05:02Z) - Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning [103.65680870130839]
本研究では,長期事前学習モデルの学習後段階の指導データを設計する方法について検討する。
制御された研究では、短い文脈で調整されたモデルが、より長いコンテキストに効果的に一般化できることが判明した。
これらの知見に基づいて,新しいデータ合成フレームワークであるコンテキスト合成を提案する。
論文 参考訳(メタデータ) (2025-02-21T17:02:40Z) - LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization [49.37607974207405]
LongPOはショート・ツー・ロングの嗜好データを利用して、ショート・コンテクストの機能をロング・コンテクストのタスクに転送する。
LongPOは短文性能を完全に保持し、長文タスクと短文タスクの両方において単純 SFT と DPO をほぼ上回っている。
論文 参考訳(メタデータ) (2025-02-19T17:59:03Z) - LIFT: Improving Long Context Understanding Through Long Input Fine-Tuning [35.31849814789343]
本稿では,ロングコンテキストモデリングのための Long Input Fine-Tuning (LIFT) を提案する。
LIFTは、オフライン長文適応の計算負担を伴わずに、長時間入力の効率的な処理を可能にする。
このフレームワークは、コンテキスト内学習とLIFT前教師付き微調整を統合することでさらに強化されている。
論文 参考訳(メタデータ) (2024-12-18T09:04:55Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。
我々は合成データを作成する2つの新しい方法を開発した。
LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-02T03:34:41Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。