論文の概要: ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities
- arxiv url: http://arxiv.org/abs/2407.14482v1
- Date: Fri, 19 Jul 2024 17:35:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 16:45:36.975360
- Title: ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities
- Title(参考訳): ChatQA 2: 長期的コンテキストとRAGの能力で、プロプライエタリなLLMにギャップを埋める
- Authors: Peng Xu, Wei Ping, Xianchao Wu, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro,
- Abstract要約: ChatQA 2はLlama3ベースのモデルで、オープンアクセスのLLMと主要なプロプライエタリモデルのギャップを埋めるように設計されている。
Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。
最先端の長文検索はRAGの上位kコンテキストの断片化問題を緩和できる。
- 参考スコア(独自算出の注目度): 51.587657076291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we introduce ChatQA 2, a Llama3-based model designed to bridge the gap between open-access LLMs and leading proprietary models (e.g., GPT-4-Turbo) in long-context understanding and retrieval-augmented generation (RAG) capabilities. These two capabilities are essential for LLMs to process large volumes of information that cannot fit into a single prompt and are complementary to each other, depending on the downstream tasks and computational budgets. We present a detailed continued training recipe to extend the context window of Llama3-70B-base from 8K to 128K tokens, along with a three-stage instruction tuning process to enhance the model's instruction-following, RAG performance, and long-context understanding capabilities. Our results demonstrate that the Llama3-ChatQA-2-70B model achieves accuracy comparable to GPT-4-Turbo-2024-0409 on many long-context understanding tasks and surpasses it on the RAG benchmark. Interestingly, we find that the state-of-the-art long-context retriever can alleviate the top-k context fragmentation issue in RAG, further improving RAG-based results for long-context understanding tasks. We also provide extensive comparisons between RAG and long-context solutions using state-of-the-art long-context LLMs.
- Abstract(参考訳): 本稿では,Llama3をベースとしたChatQA 2を提案する。Llama3をベースとしたモデルで,LLMとGPT-4-Turboなどのプロプライエタリモデル間のギャップを,長期的コンテキスト理解と検索拡張生成(RAG)機能で埋める。
これらの2つの機能は、1つのプロンプトに収まらない大量の情報を処理し、下流のタスクや計算予算によって相補的な処理を行うのに不可欠である。
そこで本研究では,Llama3-70Bベースのコンテキストウィンドウを8Kから128Kのトークンに拡張し,モデルの命令追従,RAG性能,長期コンテキスト理解能力を向上させる3段階の命令チューニングプロセスを提案する。
以上の結果から,Llama3-ChatQA-2-70Bモデルは,多くの長文理解タスクにおいてGPT-4-Turbo-2024-0409に匹敵する精度を達成し,RAGベンチマークで上回った。
興味深いことに、最先端の長文検索は、RAGにおけるトップkコンテキストの断片化問題を緩和し、長文理解タスクにおけるRAGベースの結果を改善することができる。
我々はまた、最先端の長文LLMを用いて、RAGと長文の解を広範囲に比較する。
関連論文リスト
- Long Context RAG Performance of Large Language Models [29.7557824450885]
大規模言語モデル(LLM)の精度を高める重要な手法として、検索拡張生成(RAG)が登場している。
本稿では, コンテクスト長の増大が, 20のオープンソースおよび商用LLMにおけるRAG性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-11-05T22:37:43Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。
トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。
LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文 参考訳(メタデータ) (2024-08-31T17:19:30Z) - LongIns: A Challenging Long-context Instruction-based Exam for LLMs [44.51209510772957]
大規模言語モデル(LLM)の長いコンテキスト能力は近年ホットな話題となっている。
本稿ではLongInsベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-25T14:31:26Z) - Retrieval meets Long Context Large Language Models [59.431200671427064]
大規模言語モデル(LLM)のコンテキストウィンドウの拡張が最近人気を集めている。
Retrieval-augmentation対ロングコンテキストウィンドウ。
両方の方法を組み合わせることで、両方の世界を最大限に活用できますか?
我々の最良モデルである32Kコンテキストウィンドウ付きLlama2-70Bは、9つの長いコンテキストタスクの平均スコアにおいて、GPT-3.5-turbo-16kとDavinci003より優れています。
論文 参考訳(メタデータ) (2023-10-04T17:59:41Z) - LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models [67.58275666573496]
LongLoRAは、トレーニング済みの大規模言語モデルのコンテキストサイズを拡張する、効率的な微調整アプローチである。
7B/13Bから70BまでのLlama2モデル上での各種タスクに対する実験結果が強かった。
論文 参考訳(メタデータ) (2023-09-21T17:59:11Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - Giraffe: Adventures in Expanding Context Lengths in LLMs [7.8327063299618]
線形スケーリングは文脈長を拡張するのに最適であることを示す。
また,将来的な外挿機能についても検討した。
この領域のさらなる研究を支援するために,13Bパラメータ長コンテキストモデルを新たに3つリリースする。
論文 参考訳(メタデータ) (2023-08-21T17:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。