論文の概要: "Paraphrasing The Original Text" Makes High Accuracy Long-Context QA
- arxiv url: http://arxiv.org/abs/2312.11193v6
- Date: Sun, 7 Jan 2024 11:12:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 22:01:32.858850
- Title: "Paraphrasing The Original Text" Makes High Accuracy Long-Context QA
- Title(参考訳): 原文のパラフレーズ化」による高精度長文QA
- Authors: Yijiong Yu
- Abstract要約: ほとんどのオープンソース生成言語モデルは、現在、コンテキストウィンドウが4k未満である。
長いコンテキストを扱う能力を改善するには、単に"長い"データではなく、"効果的な"データが必要であることを示す。
我々の微調整モデルは、比較スケールのモデルの中で、多文書QAにおける最先端の精度を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Most open-source generative language models currently have a context window
of no more than 4k, limiting their ability when facing long text. Even models
with longer context windows cannot guarantee satisfactory accuracy on
long-context problems. To tackle this issue, we explore from the perspective of
training data and theoretically demonstrate that improving the capability to
handle long contexts requires "effective" rather than simply "long" data. Based
on this insight, we propose using the "original text paraphrasing" task and
successfully extend the context window of existing models to 32k through a
low-cost and effective method. Our fine-tuned model achieves state-of-the-art
accuracy in multi-document-QA among models of comparable scale. The model and
training data have been made available on
HuggingFace(https://huggingface.co/yuyijiong/Qwen-14b-chat-yarn-32k) and
WiseModel(https://wisemodel.cn/models/yuyijiong/Qwen-14b-chat-yarn-32k).
- Abstract(参考訳): ほとんどのオープンソース生成言語モデルは、現在、コンテキストウィンドウが4k未満で、長いテキストに直面する際の能力を制限する。
長いコンテキストウィンドウを持つモデルでさえ、長いコンテキストの問題に対して十分な精度を保証できない。
この問題に取り組むために,我々は,トレーニングデータの観点から検討し,理論的に,長い文脈を扱う能力を改善するには,単に「長い」データではなく「効果的」が必要であることを実証する。
この知見に基づいて,「原文パラフレージング」タスクを用いて,既存のモデルのコンテキストウインドウを低コストかつ効果的な方法で32kに拡張する手法を提案する。
我々の微調整モデルは、比較スケールのモデルの中で、多文書QAにおける最先端の精度を実現する。
モデルとトレーニングデータは huggingface(https://huggingface.co/yuyijiong/qwen-14b-chat-yarn-32k)と wisemodel(https://wisemodel.cn/models/yuyijiong/qwen-14b-chat-yarn-32k)で利用可能である。
関連論文リスト
- Language Models can Self-Lengthen to Generate Long Texts [74.96074422345806]
本稿では,Self-Lengthenというイノベーティブな反復学習フレームワークを紹介する。
補助的なデータやプロプライエタリなモデルを必要としない、大規模言語モデルの本質的な知識とスキルのみを活用する。
ベンチマークと人的評価の実験により、Self-Lengthenは長文生成において既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-10-31T13:47:10Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - Untie the Knots: An Efficient Data Augmentation Strategy for Long-Context Pre-Training in Language Models [21.90388980448712]
長いコンテキストを扱うためのトレーニングモデルには、大きな課題があります。
継続事前学習フェーズで使用される新しいデータ拡張戦略であるUntie the Knots(textbfUtK)を紹介する。
我々は、UtKがRULER上で128Kの文脈長で75%と84.5%の精度を達成したことを示す200億のトークンで訓練された7Bと72Bのパラメータを持つモデルに関する広範な実験を行った。
論文 参考訳(メタデータ) (2024-09-07T09:28:55Z) - Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning [68.43706033424378]
本研究では,大規模言語モデル(MLLM)において,テキスト中のテキスト長を効率的に向上する革新的な手法を提案する。
視覚トークンを用いて長文のテキストを処理するビジュアルインコンテキストテキスト処理(VisInContext)を提案する。
この技術は、トレーニングおよび推論段階の両方において、GPUメモリ使用率と浮動小数点演算(FLOP)を大幅に削減する。
論文 参考訳(メタデータ) (2024-06-04T17:59:25Z) - LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。
我々は合成データを作成する2つの新しい方法を開発した。
LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-02T03:34:41Z) - Long Context is Not Long at All: A Prospector of Long-Dependency Data for Large Language Models [13.091271774417867]
長期コンテキストモデリング機能は、様々なアプリケーションにおいて大きな言語モデル(LLM)にとって重要である。
データマイニングフレームワーク textbfProLong を提案する。
複数のベンチマークに関する総合的な実験は、ProLongが長い依存関係を持つドキュメントを効果的に識別していることを示している。
論文 参考訳(メタデータ) (2024-05-28T07:36:56Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。