Fugu-MT 論文翻訳(概要): Training With "Paraphrasing the Original Text" Improves Long-Context Performance

論文の概要: Training With "Paraphrasing the Original Text" Improves Long-Context Performance

arxiv url: http://arxiv.org/abs/2312.11193v9
Date: Wed, 21 Aug 2024 09:31:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-22 23:04:42.921785
Title: Training With "Paraphrasing the Original Text" Improves Long-Context Performance
Title（参考訳）: Paraphrasing the Original Text"による学習の長期化
Authors: Yijiong Yu, Yongfeng Huang, Zhixiao Qi, Zhe Zhou,
Abstract要約: 大きな言語モデル(LLM)は進化を続けており、長いコンテキスト入力を扱うように設計されている。本研究では,LLMの学習能力を高めることを目的とした長文タスクのための学習データ設計手法を提案する。 LlamaおよびQwenのモデルを用いたLongBenchおよびNaturalQuestions Multi-document-QAデータセットの実験により,平均スコアが最大8.48%,4.48%向上した。
参考スコア（独自算出の注目度）: 19.48556587305737
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: As Large Language Models (LLMs) continue to evolve, more are being designed to handle long-context inputs. Despite this advancement, most of them still face challenges in accurately handling long-context tasks, often showing the "lost in the middle" issue. We identify that insufficient retrieval capability is one of the important reasons for this issue. To tackle this challenge, we propose a novel approach to design training data for long-context tasks, aiming at augmenting LLMs' proficiency in extracting key information from long context. Specially, we incorporate an additional part named "paraphrasing the original text" when constructing the answer of training samples and then fine-tuning the model. Experimenting on LongBench and NaturalQuestions Multi-document-QA dataset with models of Llama and Qwen series, our method achieves an improvement of up to 8.48% and 4.48% in average scores, respectively, showing effectiveness in improving the model' s performance on long-context tasks. The model and training data have been made available on HuggingFace(https://huggingface.co/yuyijiong/Qwen-14b-chat-yarn-32k).
Abstract（参考訳）: 大きな言語モデル(LLM)が進化を続けるにつれ、長いコンテキスト入力を扱うように設計されている。この進歩にもかかわらず、それらの多くは、長いコンテキストのタスクを正確に処理する上での課題に直面しており、しばしば「中間にあるロスト」の問題を示している。この問題の重要な原因の一つとして,検索能力の不足があげられる。この課題に対処するために,LLMの習熟度を向上し,長いコンテキストから鍵情報を抽出することを目的とした,長文タスクのためのトレーニングデータ設計手法を提案する。特に、トレーニングサンプルの回答を構築し、モデルを微調整する際、"原文のパラフレーズ化"という追加の部品を組み込む。 Llama および Qwen シリーズのモデルを用いた LongBench と NaturalQuestions のマルチドキュメント QA データセットを実験した結果,Llama および Qwen シリーズの平均スコアの最大 8.48% と 4.48% の改善が達成され,長文タスクにおけるモデル s の性能向上に有効であることが示唆された。モデルとトレーニングデータはHuggingFace(https://huggingface.co/yuyijiong/Qwen-14b-chat-yarn-32k)で公開されている。

関連論文リスト

From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models [54.44375226381814]
長いコンテキスト機能は、ドキュメントやビデオの理解、コンテキスト内学習、推論時間スケーリングなど、幅広いアプリケーションに不可欠である。コンテクスト長を128Kから1M,2M,4Mに制限し,コンテクスト長を128Kから4Mに抑えることで,超長コンテキストLCMを構築するための効率的なトレーニング手法を提案する。提案手法は,多種多様な長文ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-08T16:58:58Z)
Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning [103.65680870130839]
本研究では,長期事前学習モデルの学習後段階の指導データを設計する方法について検討する。制御された研究では、短い文脈で調整されたモデルが、より長いコンテキストに効果的に一般化できることが判明した。これらの知見に基づいて,新しいデータ合成フレームワークであるコンテキスト合成を提案する。
論文参考訳（メタデータ） (2025-02-21T17:02:40Z)
Language Models can Self-Lengthen to Generate Long Texts [74.96074422345806]
本稿では,Self-Lengthenというイノベーティブな反復学習フレームワークを紹介する。補助的なデータやプロプライエタリなモデルを必要としない、大規模言語モデルの本質的な知識とスキルのみを活用する。ベンチマークと人的評価の実験により、Self-Lengthenは長文生成において既存の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2024-10-31T13:47:10Z)
How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。 ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文参考訳（メタデータ） (2024-10-03T16:46:52Z)
Untie the Knots: An Efficient Data Augmentation Strategy for Long-Context Pre-Training in Language Models [21.90388980448712]
長いコンテキストを扱うためのトレーニングモデルには、大きな課題があります。継続事前学習フェーズで使用される新しいデータ拡張戦略であるUntie the Knots(textbfUtK)を紹介する。我々は、UtKがRULER上で128Kの文脈長で75%と84.5%の精度を達成したことを示す200億のトークンで訓練された7Bと72Bのパラメータを持つモデルに関する広範な実験を行った。
論文参考訳（メタデータ） (2024-09-07T09:28:55Z)
Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning [68.43706033424378]
本研究では,大規模言語モデル(MLLM)において,テキスト中のテキスト長を効率的に向上する革新的な手法を提案する。視覚トークンを用いて長文のテキストを処理するビジュアルインコンテキストテキスト処理(VisInContext)を提案する。この技術は、トレーニングおよび推論段階の両方において、GPUメモリ使用率と浮動小数点演算(FLOP)を大幅に削減する。
論文参考訳（メタデータ） (2024-06-04T17:59:25Z)
LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。我々は合成データを作成する2つの新しい方法を開発した。 LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-06-02T03:34:41Z)
Long Context is Not Long at All: A Prospector of Long-Dependency Data for Large Language Models [13.091271774417867]
長期コンテキストモデリング機能は、様々なアプリケーションにおいて大きな言語モデル(LLM)にとって重要である。データマイニングフレームワーク textbfProLong を提案する。複数のベンチマークに関する総合的な実験は、ProLongが長い依存関係を持つドキュメントを効果的に識別していることを示している。
論文参考訳（メタデータ） (2024-05-28T07:36:56Z)
Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文参考訳（メタデータ） (2023-09-27T21:41:49Z)
Stabilized In-Context Learning with Pre-trained Language Models for Few Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文参考訳（メタデータ） (2023-02-12T15:05:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。