論文の概要: Training With "Paraphrasing the Original Text" Improves Long-Context Performance
- arxiv url: http://arxiv.org/abs/2312.11193v9
- Date: Wed, 21 Aug 2024 09:31:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 23:04:42.921785
- Title: Training With "Paraphrasing the Original Text" Improves Long-Context Performance
- Title(参考訳): Paraphrasing the Original Text"による学習の長期化
- Authors: Yijiong Yu, Yongfeng Huang, Zhixiao Qi, Zhe Zhou,
- Abstract要約: 大きな言語モデル(LLM)は進化を続けており、長いコンテキスト入力を扱うように設計されている。
本研究では,LLMの学習能力を高めることを目的とした長文タスクのための学習データ設計手法を提案する。
LlamaおよびQwenのモデルを用いたLongBenchおよびNaturalQuestions Multi-document-QAデータセットの実験により,平均スコアが最大8.48%,4.48%向上した。
- 参考スコア(独自算出の注目度): 19.48556587305737
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As Large Language Models (LLMs) continue to evolve, more are being designed to handle long-context inputs. Despite this advancement, most of them still face challenges in accurately handling long-context tasks, often showing the "lost in the middle" issue. We identify that insufficient retrieval capability is one of the important reasons for this issue. To tackle this challenge, we propose a novel approach to design training data for long-context tasks, aiming at augmenting LLMs' proficiency in extracting key information from long context. Specially, we incorporate an additional part named "paraphrasing the original text" when constructing the answer of training samples and then fine-tuning the model. Experimenting on LongBench and NaturalQuestions Multi-document-QA dataset with models of Llama and Qwen series, our method achieves an improvement of up to 8.48% and 4.48% in average scores, respectively, showing effectiveness in improving the model' s performance on long-context tasks. The model and training data have been made available on HuggingFace(https://huggingface.co/yuyijiong/Qwen-14b-chat-yarn-32k).
- Abstract(参考訳): 大きな言語モデル(LLM)が進化を続けるにつれ、長いコンテキスト入力を扱うように設計されている。
この進歩にもかかわらず、それらの多くは、長いコンテキストのタスクを正確に処理する上での課題に直面しており、しばしば「中間にあるロスト」の問題を示している。
この問題の重要な原因の一つとして,検索能力の不足があげられる。
この課題に対処するために,LLMの習熟度を向上し,長いコンテキストから鍵情報を抽出することを目的とした,長文タスクのためのトレーニングデータ設計手法を提案する。
特に、トレーニングサンプルの回答を構築し、モデルを微調整する際、"原文のパラフレーズ化"という追加の部品を組み込む。
Llama および Qwen シリーズのモデルを用いた LongBench と NaturalQuestions のマルチドキュメント QA データセットを実験した結果,Llama および Qwen シリーズの平均スコアの最大 8.48% と 4.48% の改善が達成され,長文タスクにおけるモデル s の性能向上に有効であることが示唆された。
モデルとトレーニングデータはHuggingFace(https://huggingface.co/yuyijiong/Qwen-14b-chat-yarn-32k)で公開されている。
関連論文リスト
- KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [49.43759617227999]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning [68.43706033424378]
本研究では,大規模言語モデル(MLLM)において,テキスト中のテキスト長を効率的に向上する革新的な手法を提案する。
視覚トークンを用いて長文のテキストを処理するビジュアルインコンテキストテキスト処理(VisInContext)を提案する。
この技術は、トレーニングおよび推論段階の両方において、GPUメモリ使用率と浮動小数点演算(FLOP)を大幅に削減する。
論文 参考訳(メタデータ) (2024-06-04T17:59:25Z) - LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。
我々は合成データを作成する2つの新しい方法を開発した。
LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-02T03:34:41Z) - Quest: Query-centric Data Synthesis Approach for Long-context Scaling of Large Language Model [22.07414287186125]
本稿では,クエストと略されるクエリ中心のデータ合成手法を提案する。
我々は、複数の長文ベンチマークデータセットにおいて、コンテキスト長128kまでの長文データセットを合成し、他のデータ合成方法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-30T08:50:55Z) - Long Context is Not Long at All: A Prospector of Long-Dependency Data for Large Language Models [13.091271774417867]
長期コンテキストモデリング機能は、様々なアプリケーションにおいて大きな言語モデル(LLM)にとって重要である。
データマイニングフレームワーク textbfProLong を提案する。
複数のベンチマークに関する総合的な実験は、ProLongが長い依存関係を持つドキュメントを効果的に識別していることを示している。
論文 参考訳(メタデータ) (2024-05-28T07:36:56Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - Never Lost in the Middle: Improving Large Language Models via Attention
Strengthening Question Answering [0.14043931310479374]
大規模言語モデル(LLM)は、長い文脈で正しい情報を求めるのに苦労している。
本稿では,LLMの長期的コンテキストにおける情報探索と反射能力の向上を,特別に設計されたタスクを通して行うことを提案する。
実験の結果、マルチドックQAやその他のベンチマークでは、シャッフル設定において、最先端モデルよりも13.7%向上した。
論文 参考訳(メタデータ) (2023-11-15T18:42:44Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - Augmenting Data for Sarcasm Detection with Unlabeled Conversation
Context [55.898436183096614]
本稿では,会話コンテキストを利用して意味のあるサンプルを生成する新しいデータ拡張手法であるCRA(Contextual Response Augmentation)を提案する。
具体的には,提案手法を訓練し,FigLang2020の皮肉検出タスクに参加し,RedditとTwitterのデータセットで最高のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2020-06-11T09:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。