論文の概要: Scaling Context, Not Parameters: Training a Compact 7B Language Model for Efficient Long-Context Processing
- arxiv url: http://arxiv.org/abs/2505.08651v1
- Date: Tue, 13 May 2025 15:13:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.63445
- Title: Scaling Context, Not Parameters: Training a Compact 7B Language Model for Efficient Long-Context Processing
- Title(参考訳): パラメータではなくコンテキストのスケーリング: 効率的な長期処理のためのコンパクトな7B言語モデルの訓練
- Authors: Chen Wu, Yin Song,
- Abstract要約: 512Kのコンテキスト長をサポートする言語モデルであるMegaBeam-Mistral-7Bを提案する。
本研究は,長期学習における現実的な制約に対処し,コンプライアンス監視や検証などの現実的なタスクをサポートする。
- 参考スコア(独自算出の注目度): 5.093526177294803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MegaBeam-Mistral-7B, a language model that supports 512K-token context length. Our work addresses practical limitations in long-context training, supporting real-world tasks such as compliance monitoring and verification. Evaluated on three long-context benchmarks, our 7B-parameter model demonstrates superior in-context learning performance on HELMET and robust retrieval and tracing capability on RULER. It is currently the only open model to achieve competitive long-range reasoning on BABILong at 512K context length without RAG or targeted fine-tuning. Released as fully open source under the Apache 2.0 license, the model has been downloaded over 100,000 times on Hugging Face. Model available at: https://huggingface.co/aws-prototyping/MegaBeam-Mistral-7B-512k
- Abstract(参考訳): 512Kのコンテキスト長をサポートする言語モデルであるMegaBeam-Mistral-7Bを提案する。
本研究は,長期学習における現実的な制約に対処し,コンプライアンス監視や検証などの現実的なタスクをサポートする。
3つの長文ベンチマークから評価し、7Bパラメータモデルにより、HELMET上でのテキスト内学習性能とRULER上での堅牢な検索とトレース性能が向上することを示した。
現在、RAGや微調整を対象とせず、512Kのコンテキスト長でBABILong上で競合する長距離推論を実現する唯一のオープンモデルである。
Apache 2.0ライセンスで完全にオープンソースとしてリリースされ、Hugging Faceで10万回以上ダウンロードされている。
https://huggingface.co/aws-prototyping/MegaBeam-Mistral-7B-512k
関連論文リスト
- LongCodeBench: Evaluating Coding LLMs at 1M Context Windows [32.93947506522558]
我々は、コード理解と修復を、長期コンテキストモデルの自然なテストベッドと課題として認識する。
我々はLongCodeBenchを紹介した。LongCodeBenchは、Long-contextのシナリオでLLMのコーディング能力をテストするためのベンチマークである。
私たちは、Claude 3.5 Sonnetの29%から3%のパフォーマンス低下など、ロングコンテキストがすべてのモデルにとって弱点であることに気付きました。
論文 参考訳(メタデータ) (2025-05-12T05:38:03Z) - From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models [54.44375226381814]
長いコンテキスト機能は、ドキュメントやビデオの理解、コンテキスト内学習、推論時間スケーリングなど、幅広いアプリケーションに不可欠である。
コンテクスト長を128Kから1M,2M,4Mに制限し,コンテクスト長を128Kから4Mに抑えることで,超長コンテキストLCMを構築するための効率的なトレーニング手法を提案する。
提案手法は,多種多様な長文ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-08T16:58:58Z) - ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。
Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。
RAGを用いた長文LLMの性能は,多数のチャンクを検索した場合に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-19T17:35:47Z) - Scaling Granite Code Models to 128K Context [37.33217431348284]
本稿では,最大128Kトークンの効率的なコンテキストウィンドウをサポートする長文グラナイト符号モデルを提案する。
2K/4Kから128KまでのGranite 3B/8B符号モデルのコンテキスト長のスケーリングソリューションは、軽量な継続事前トレーニングで構成されている。
私たちは、研究と商用の両方のために、Apache 2.0ライセンスの下で、長いコンテキストのGraniteコードモデルをリリースします。
論文 参考訳(メタデータ) (2024-07-18T17:46:02Z) - Training-Free Long-Context Scaling of Large Language Models [114.53296002607993]
我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。
長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-27T12:39:23Z) - LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models [67.58275666573496]
LongLoRAは、トレーニング済みの大規模言語モデルのコンテキストサイズを拡張する、効率的な微調整アプローチである。
7B/13Bから70BまでのLlama2モデル上での各種タスクに対する実験結果が強かった。
論文 参考訳(メタデータ) (2023-09-21T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。