論文の概要: ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities
- arxiv url: http://arxiv.org/abs/2407.14482v2
- Date: Mon, 9 Sep 2024 06:19:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 01:25:35.367786
- Title: ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities
- Title(参考訳): ChatQA 2: 長期的コンテキストとRAGの能力で、プロプライエタリなLLMにギャップを埋める
- Authors: Peng Xu, Wei Ping, Xianchao Wu, Chejian Xu, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro,
- Abstract要約: ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。
Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。
以上の結果から,Llama3-ChatQA-2-70Bモデルは既存の最先端モデルよりも優れていた。
- 参考スコア(独自算出の注目度): 53.97515452727115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we introduce ChatQA 2, an Llama 3.0-based model with a 128K context window, designed to bridge the gap between open-source LLMs and leading proprietary models (e.g., GPT-4-Turbo) in long-context understanding and retrieval-augmented generation (RAG) capabilities. These two capabilities are essential for LLMs to process large volumes of information that cannot fit into a single prompt and are complementary to each other, depending on the downstream tasks and computational budgets. We present a detailed continued training recipe to extend the context window of Llama3-70B-base from 8K to 128K tokens, along with a three-stage instruction tuning process to enhance the model's instruction-following, RAG performance, and long-context understanding capabilities. Our results demonstrate that the Llama3-ChatQA-2-70B model outperforms most existing state-of-the-art models, including GPT-4-Turbo-2024-04-09, Qwen2-72B-Instruct, and Llama3.1-70B-Instruct, on ultra-long tasks beyond 100K tokens, as well as on the RAG benchmark using only a 4K context window, showing the strong long context capability across varying sequence lengths. We further provide extensive comparisons between direct long-context and RAG solutions using the same state-of-the-art long-context LLMs. Interestingly, we find that the performance of strong long-context LLMs using RAG improves when retrieving a larger number of chunks. With a large set of top-k chunks, RAG consistently outperforms direct long-context solution using the same state-of-the-art long-context models (e.g., Llama3-ChatQA-2-70B and Qwen2-72B-Instruct) on both 32K benchmarks and real-world 128K tasks. To advance research in this field, we open-sourced the model weights, training data, and the evaluation setup for the for the community: https://chatqa2-project.github.io/
- Abstract(参考訳): 本稿では,Llama 3.0ベースの128Kコンテキストウインドウを用いたChatQA 2を紹介し,長期コンテキスト理解と検索拡張生成(RAG)機能において,オープンソースLLMと主要なプロプライエタリモデル(GPT-4-Turbo)のギャップを埋めるように設計された。
これらの2つの機能は、1つのプロンプトに収まらない大量の情報を処理し、下流のタスクや計算予算によって相補的な処理を行うのに不可欠である。
そこで本研究では,Llama3-70Bベースのコンテキストウィンドウを8Kから128Kのトークンに拡張し,モデルの命令追従,RAG性能,長期コンテキスト理解能力を向上させる3段階の命令チューニングプロセスを提案する。
Llama3-ChatQA-2-70BモデルはGPT-4-Turbo-2024-04-09、Qwen2-72B-Instruct、Llama3.1-70B-Instructといった既存の最先端モデルよりも優れており、100Kトークンを超える超長いタスクや、4Kコンテキストウィンドウのみを使用したRAGベンチマークでは、シーケンス長の強いコンテキスト能力を示している。
さらに,同種の長文LLMを用いて,直接長文とRAGソリューションの広範な比較を行った。
興味深いことに,RAGを用いた長文LLMの性能は,多数のチャンクを検索した場合に向上する。
トップkチャンクの大規模なセットでは、RAGは32Kベンチマークと現実世界の128Kタスクの両方で、最先端のロングコンテキストモデル(Llama3-ChatQA-2-70BとQwen2-72B-Instruct)を使用して、常に直接のロングコンテキストソリューションより優れている。
この分野での研究を進めるために、私たちはモデルウェイト、トレーニングデータ、コミュニティのための評価設定をオープンソースにした。
関連論文リスト
- Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach [26.02167477129771]
Retrieval Augmented Generation (RAG) は、Large Language Models (LLM) において、過度に長いコンテキストを効率的に処理するための強力なツールである。
RAGとLong-context (LC) LLMを比較し,両者の強みを活用することを目的とした。
本稿では, モデル自己回帰に基づいて, クエリをRAGやLCにルーティングする, 単純かつ効果的な手法であるSelf-Routeを提案する。
論文 参考訳(メタデータ) (2024-07-23T20:51:52Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - Counting-Stars: A Multi-evidence, Position-aware, and Scalable Benchmark for Evaluating Long-Context Large Language Models [14.906150451947443]
長文Large Language Models (LLMs) の評価のためのベンチマークであるCounting-Starsを提案する。
長文LCM(GPT-4 Turbo, Gemini 1.5 Pro, Claude3 Opus, GLM-4, Moonshot-v1)の評価実験を行った。
GPT-4 Turboは様々なタスクで最も安定している。
論文 参考訳(メタデータ) (2024-03-18T14:01:45Z) - Enhancing Textbook Question Answering Task with Large Language Models
and Retrieval Augmented Generation [3.948068081583197]
本稿では,テキスト質問応答(TQA)における領域外シナリオを扱う手法を提案する。
LLMモデルLlama-2の微調整とRAGの導入により、我々のアーキテクチャはベースラインよりも優れ、検証セットでは4.12%、非ダイアグラム多重選択質問では9.84%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-02-05T11:58:56Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [50.408957515411096]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - Retrieval meets Long Context Large Language Models [59.431200671427064]
大規模言語モデル(LLM)のコンテキストウィンドウの拡張が最近人気を集めている。
Retrieval-augmentation対ロングコンテキストウィンドウ。
両方の方法を組み合わせることで、両方の世界を最大限に活用できますか?
我々の最良モデルである32Kコンテキストウィンドウ付きLlama2-70Bは、9つの長いコンテキストタスクの平均スコアにおいて、GPT-3.5-turbo-16kとDavinci003より優れています。
論文 参考訳(メタデータ) (2023-10-04T17:59:41Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。