Fugu-MT 論文翻訳(概要): ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities

論文の概要: ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities

arxiv url: http://arxiv.org/abs/2407.14482v2
Date: Mon, 9 Sep 2024 06:19:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 01:25:35.367786
Title: ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities
Title（参考訳）: ChatQA 2: 長期的コンテキストとRAGの能力で、プロプライエタリなLLMにギャップを埋める
Authors: Peng Xu, Wei Ping, Xianchao Wu, Chejian Xu, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro,
Abstract要約: ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。 Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。以上の結果から,Llama3-ChatQA-2-70Bモデルは既存の最先端モデルよりも優れていた。
参考スコア（独自算出の注目度）: 53.97515452727115
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we introduce ChatQA 2, an Llama 3.0-based model with a 128K context window, designed to bridge the gap between open-source LLMs and leading proprietary models (e.g., GPT-4-Turbo) in long-context understanding and retrieval-augmented generation (RAG) capabilities. These two capabilities are essential for LLMs to process large volumes of information that cannot fit into a single prompt and are complementary to each other, depending on the downstream tasks and computational budgets. We present a detailed continued training recipe to extend the context window of Llama3-70B-base from 8K to 128K tokens, along with a three-stage instruction tuning process to enhance the model's instruction-following, RAG performance, and long-context understanding capabilities. Our results demonstrate that the Llama3-ChatQA-2-70B model outperforms most existing state-of-the-art models, including GPT-4-Turbo-2024-04-09, Qwen2-72B-Instruct, and Llama3.1-70B-Instruct, on ultra-long tasks beyond 100K tokens, as well as on the RAG benchmark using only a 4K context window, showing the strong long context capability across varying sequence lengths. We further provide extensive comparisons between direct long-context and RAG solutions using the same state-of-the-art long-context LLMs. Interestingly, we find that the performance of strong long-context LLMs using RAG improves when retrieving a larger number of chunks. With a large set of top-k chunks, RAG consistently outperforms direct long-context solution using the same state-of-the-art long-context models (e.g., Llama3-ChatQA-2-70B and Qwen2-72B-Instruct) on both 32K benchmarks and real-world 128K tasks. To advance research in this field, we open-sourced the model weights, training data, and the evaluation setup for the for the community: https://chatqa2-project.github.io/
Abstract（参考訳）: 本稿では,Llama 3.0ベースの128Kコンテキストウインドウを用いたChatQA 2を紹介し,長期コンテキスト理解と検索拡張生成(RAG)機能において,オープンソースLLMと主要なプロプライエタリモデル(GPT-4-Turbo)のギャップを埋めるように設計された。これらの2つの機能は、1つのプロンプトに収まらない大量の情報を処理し、下流のタスクや計算予算によって相補的な処理を行うのに不可欠である。そこで本研究では,Llama3-70Bベースのコンテキストウィンドウを8Kから128Kのトークンに拡張し,モデルの命令追従,RAG性能,長期コンテキスト理解能力を向上させる3段階の命令チューニングプロセスを提案する。 Llama3-ChatQA-2-70BモデルはGPT-4-Turbo-2024-04-09、Qwen2-72B-Instruct、Llama3.1-70B-Instructといった既存の最先端モデルよりも優れており、100Kトークンを超える超長いタスクや、4Kコンテキストウィンドウのみを使用したRAGベンチマークでは、シーケンス長の強いコンテキスト能力を示している。さらに,同種の長文LLMを用いて,直接長文とRAGソリューションの広範な比較を行った。興味深いことに,RAGを用いた長文LLMの性能は,多数のチャンクを検索した場合に向上する。トップkチャンクの大規模なセットでは、RAGは32Kベンチマークと現実世界の128Kタスクの両方で、最先端のロングコンテキストモデル(Llama3-ChatQA-2-70BとQwen2-72B-Instruct)を使用して、常に直接のロングコンテキストソリューションより優れている。この分野での研究を進めるために、私たちはモデルウェイト、トレーニングデータ、コミュニティのための評価設定をオープンソースにした。

関連論文リスト

Temporal Chain of Thought: Long-Video Understanding by Thinking in Frames [70.93346841539626]
本稿では,ビデオ質問応答のための推論戦略である思考の時間的連鎖について述べる。 VLM自体を使用して、ビデオから最も関連性の高いフレームを反復的に識別し、抽出する。推論時により多くの計算を利用すれば、最も関連性の高いコンテキストを選択することで、精度が向上することを示す。
論文参考訳（メタデータ） (2025-07-01T18:39:26Z)
LongCodeBench: Evaluating Coding LLMs at 1M Context Windows [32.93947506522558]
我々は、コード理解と修復を、長期コンテキストモデルの自然なテストベッドと課題として認識する。我々はLongCodeBenchを紹介した。LongCodeBenchは、Long-contextのシナリオでLLMのコーディング能力をテストするためのベンチマークである。私たちは、Claude 3.5 Sonnetの29%から3%のパフォーマンス低下など、ロングコンテキストがすべてのモデルにとって弱点であることに気付きました。
論文参考訳（メタデータ） (2025-05-12T05:38:03Z)
From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models [54.44375226381814]
長いコンテキスト機能は、ドキュメントやビデオの理解、コンテキスト内学習、推論時間スケーリングなど、幅広いアプリケーションに不可欠である。コンテクスト長を128Kから1M,2M,4Mに制限し,コンテクスト長を128Kから4Mに抑えることで,超長コンテキストLCMを構築するための効率的なトレーニング手法を提案する。提案手法は,多種多様な長文ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-08T16:58:58Z)
LongProc: Benchmarking Long-Context Language Models on Long Procedural Generation [74.89981179257194]
LongProc (Long Procedural Generation)は、Long-Context Language Model (LCLM) を評価するための新しいベンチマークである。 LongProcは、HTMLページから構造化された情報をTSVフォーマットに抽出し、旅行計画を作成する複雑な検索手順を実行する6つの手続き生成タスクで構成されている。我々は,LongProcの命令調整モデルと最近の推論モデルを含む23個のLCLMを,500,2K,8Kで設定された最大出力トークン数で3つの難易度で評価した。
論文参考訳（メタデータ） (2025-01-09T18:16:55Z)
Long Context RAG Performance of Large Language Models [29.7557824450885]
大規模言語モデル(LLM)の精度を高める重要な手法として、検索拡張生成(RAG)が登場している。本稿では, コンテクスト長の増大が, 20のオープンソースおよび商用LLMにおけるRAG性能に与える影響について検討する。
論文参考訳（メタデータ） (2024-11-05T22:37:43Z)
How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。 ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文参考訳（メタデータ） (2024-10-03T16:46:52Z)
LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。 LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文参考訳（メタデータ） (2024-08-31T17:19:30Z)
LongIns: A Challenging Long-context Instruction-based Exam for LLMs [44.51209510772957]
大規模言語モデル(LLM)の長いコンテキスト能力は近年ホットな話題となっている。本稿ではLongInsベンチマークデータセットを提案する。
論文参考訳（メタデータ） (2024-06-25T14:31:26Z)
Retrieval meets Long Context Large Language Models [59.431200671427064]
大規模言語モデル(LLM)のコンテキストウィンドウの拡張が最近人気を集めている。 Retrieval-augmentation対ロングコンテキストウィンドウ。両方の方法を組み合わせることで、両方の世界を最大限に活用できますか? 我々の最良モデルである32Kコンテキストウィンドウ付きLlama2-70Bは、9つの長いコンテキストタスクの平均スコアにおいて、GPT-3.5-turbo-16kとDavinci003より優れています。
論文参考訳（メタデータ） (2023-10-04T17:59:41Z)
LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models [67.58275666573496]
LongLoRAは、トレーニング済みの大規模言語モデルのコンテキストサイズを拡張する、効率的な微調整アプローチである。 7B/13Bから70BまでのLlama2モデル上での各種タスクに対する実験結果が強かった。
論文参考訳（メタデータ） (2023-09-21T17:59:11Z)
LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文参考訳（メタデータ） (2023-08-28T11:53:40Z)
Giraffe: Adventures in Expanding Context Lengths in LLMs [7.8327063299618]
線形スケーリングは文脈長を拡張するのに最適であることを示す。また,将来的な外挿機能についても検討した。この領域のさらなる研究を支援するために,13Bパラメータ長コンテキストモデルを新たに3つリリースする。
論文参考訳（メタデータ） (2023-08-21T17:30:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。