論文の概要: ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities
- arxiv url: http://arxiv.org/abs/2407.14482v2
- Date: Mon, 9 Sep 2024 06:19:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 01:25:35.367786
- Title: ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities
- Title(参考訳): ChatQA 2: 長期的コンテキストとRAGの能力で、プロプライエタリなLLMにギャップを埋める
- Authors: Peng Xu, Wei Ping, Xianchao Wu, Chejian Xu, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro,
- Abstract要約: ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。
Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。
以上の結果から,Llama3-ChatQA-2-70Bモデルは既存の最先端モデルよりも優れていた。
- 参考スコア(独自算出の注目度): 53.97515452727115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we introduce ChatQA 2, an Llama 3.0-based model with a 128K context window, designed to bridge the gap between open-source LLMs and leading proprietary models (e.g., GPT-4-Turbo) in long-context understanding and retrieval-augmented generation (RAG) capabilities. These two capabilities are essential for LLMs to process large volumes of information that cannot fit into a single prompt and are complementary to each other, depending on the downstream tasks and computational budgets. We present a detailed continued training recipe to extend the context window of Llama3-70B-base from 8K to 128K tokens, along with a three-stage instruction tuning process to enhance the model's instruction-following, RAG performance, and long-context understanding capabilities. Our results demonstrate that the Llama3-ChatQA-2-70B model outperforms most existing state-of-the-art models, including GPT-4-Turbo-2024-04-09, Qwen2-72B-Instruct, and Llama3.1-70B-Instruct, on ultra-long tasks beyond 100K tokens, as well as on the RAG benchmark using only a 4K context window, showing the strong long context capability across varying sequence lengths. We further provide extensive comparisons between direct long-context and RAG solutions using the same state-of-the-art long-context LLMs. Interestingly, we find that the performance of strong long-context LLMs using RAG improves when retrieving a larger number of chunks. With a large set of top-k chunks, RAG consistently outperforms direct long-context solution using the same state-of-the-art long-context models (e.g., Llama3-ChatQA-2-70B and Qwen2-72B-Instruct) on both 32K benchmarks and real-world 128K tasks. To advance research in this field, we open-sourced the model weights, training data, and the evaluation setup for the for the community: https://chatqa2-project.github.io/
- Abstract(参考訳): 本稿では,Llama 3.0ベースの128Kコンテキストウインドウを用いたChatQA 2を紹介し,長期コンテキスト理解と検索拡張生成(RAG)機能において,オープンソースLLMと主要なプロプライエタリモデル(GPT-4-Turbo)のギャップを埋めるように設計された。
これらの2つの機能は、1つのプロンプトに収まらない大量の情報を処理し、下流のタスクや計算予算によって相補的な処理を行うのに不可欠である。
そこで本研究では,Llama3-70Bベースのコンテキストウィンドウを8Kから128Kのトークンに拡張し,モデルの命令追従,RAG性能,長期コンテキスト理解能力を向上させる3段階の命令チューニングプロセスを提案する。
Llama3-ChatQA-2-70BモデルはGPT-4-Turbo-2024-04-09、Qwen2-72B-Instruct、Llama3.1-70B-Instructといった既存の最先端モデルよりも優れており、100Kトークンを超える超長いタスクや、4Kコンテキストウィンドウのみを使用したRAGベンチマークでは、シーケンス長の強いコンテキスト能力を示している。
さらに,同種の長文LLMを用いて,直接長文とRAGソリューションの広範な比較を行った。
興味深いことに,RAGを用いた長文LLMの性能は,多数のチャンクを検索した場合に向上する。
トップkチャンクの大規模なセットでは、RAGは32Kベンチマークと現実世界の128Kタスクの両方で、最先端のロングコンテキストモデル(Llama3-ChatQA-2-70BとQwen2-72B-Instruct)を使用して、常に直接のロングコンテキストソリューションより優れている。
この分野での研究を進めるために、私たちはモデルウェイト、トレーニングデータ、コミュニティのための評価設定をオープンソースにした。
関連論文リスト
- Long Context RAG Performance of Large Language Models [29.7557824450885]
大規模言語モデル(LLM)の精度を高める重要な手法として、検索拡張生成(RAG)が登場している。
本稿では, コンテクスト長の増大が, 20のオープンソースおよび商用LLMにおけるRAG性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-11-05T22:37:43Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。
トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。
LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文 参考訳(メタデータ) (2024-08-31T17:19:30Z) - LongIns: A Challenging Long-context Instruction-based Exam for LLMs [44.51209510772957]
大規模言語モデル(LLM)の長いコンテキスト能力は近年ホットな話題となっている。
本稿ではLongInsベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-25T14:31:26Z) - Retrieval meets Long Context Large Language Models [59.431200671427064]
大規模言語モデル(LLM)のコンテキストウィンドウの拡張が最近人気を集めている。
Retrieval-augmentation対ロングコンテキストウィンドウ。
両方の方法を組み合わせることで、両方の世界を最大限に活用できますか?
我々の最良モデルである32Kコンテキストウィンドウ付きLlama2-70Bは、9つの長いコンテキストタスクの平均スコアにおいて、GPT-3.5-turbo-16kとDavinci003より優れています。
論文 参考訳(メタデータ) (2023-10-04T17:59:41Z) - LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models [67.58275666573496]
LongLoRAは、トレーニング済みの大規模言語モデルのコンテキストサイズを拡張する、効率的な微調整アプローチである。
7B/13Bから70BまでのLlama2モデル上での各種タスクに対する実験結果が強かった。
論文 参考訳(メタデータ) (2023-09-21T17:59:11Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - Giraffe: Adventures in Expanding Context Lengths in LLMs [7.8327063299618]
線形スケーリングは文脈長を拡張するのに最適であることを示す。
また,将来的な外挿機能についても検討した。
この領域のさらなる研究を支援するために,13Bパラメータ長コンテキストモデルを新たに3つリリースする。
論文 参考訳(メタデータ) (2023-08-21T17:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。