Fugu-MT 論文翻訳(概要): Scaling Granite Code Models to 128K Context

論文の概要: Scaling Granite Code Models to 128K Context

arxiv url: http://arxiv.org/abs/2407.13739v1
Date: Thu, 18 Jul 2024 17:46:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-19 14:21:47.883946
Title: Scaling Granite Code Models to 128K Context
Title（参考訳）: グラファイトコードのモデルを128Kコンテキストにスケーリングする
Authors: Matt Stallone, Vaibhav Saxena, Leonid Karlinsky, Bridget McGinn, Tim Bula, Mayank Mishra, Adriana Meza Soria, Gaoyuan Zhang, Aditya Prasad, Yikang Shen, Saptha Surendran, Shanmukha Guttula, Hima Patel, Parameswaran Selvam, Xuan-Hong Dang, Yan Koyfman, Atin Sood, Rogerio Feris, Nirmit Desai, David D. Cox, Ruchir Puri, Rameswar Panda,
Abstract要約: 本稿では,最大128Kトークンの効率的なコンテキストウィンドウをサポートする長文グラナイト符号モデルを提案する。 2K/4Kから128KまでのGranite 3B/8B符号モデルのコンテキスト長のスケーリングソリューションは、軽量な継続事前トレーニングで構成されている。私たちは、研究と商用の両方のために、Apache 2.0ライセンスの下で、長いコンテキストのGraniteコードモデルをリリースします。
参考スコア（独自算出の注目度）: 37.33217431348284
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces long-context Granite code models that support effective context windows of up to 128K tokens. Our solution for scaling context length of Granite 3B/8B code models from 2K/4K to 128K consists of a light-weight continual pretraining by gradually increasing its RoPE base frequency with repository-level file packing and length-upsampled long-context data. Additionally, we also release instruction-tuned models with long-context support which are derived by further finetuning the long context base models on a mix of permissively licensed short and long-context instruction-response pairs. While comparing to the original short-context Granite code models, our long-context models achieve significant improvements on long-context tasks without any noticeable performance degradation on regular code completion benchmarks (e.g., HumanEval). We release all our long-context Granite code models under an Apache 2.0 license for both research and commercial use.
Abstract（参考訳）: 本稿では,最大128Kトークンの効率的なコンテキストウィンドウをサポートする長文グラナイト符号モデルを提案する。 2K/4Kから128KまでのGranite 3B/8Bコードモデルのコンテキスト長のスケーリングソリューションは,リポジトリレベルのファイルパッキングと長サンプル長コンテキストデータを用いて,RoPEベース周波数を徐々に増加させることにより,軽量な継続事前トレーニングで構成されている。また、長文サポート付き命令調整モデルもリリースし、長いコンテキストベースモデルをパーミッシブライセンスの短文と長文の命令応答ペアの組み合わせで微調整する。従来のショートコンテクストのGraniteコードモデルと比較しながら、私たちの長期コンテキストモデルは、通常のコード補完ベンチマーク(HumanEvalなど)で顕著なパフォーマンス劣化を伴わずに、長期コンテキストタスクにおいて大幅な改善を実現しています。私たちは、研究と商用の両方のために、Apache 2.0ライセンスの下で、長いコンテキストのGraniteコードモデルをリリースします。

関連論文リスト

Scaling Context, Not Parameters: Training a Compact 7B Language Model for Efficient Long-Context Processing [5.093526177294803]
512Kのコンテキスト長をサポートする言語モデルであるMegaBeam-Mistral-7Bを提案する。本研究は,長期学習における現実的な制約に対処し,コンプライアンス監視や検証などの現実的なタスクをサポートする。
論文参考訳（メタデータ） (2025-05-13T15:13:15Z)
LongCodeBench: Evaluating Coding LLMs at 1M Context Windows [32.93947506522558]
我々は、コード理解と修復を、長期コンテキストモデルの自然なテストベッドと課題として認識する。我々はLongCodeBenchを紹介した。LongCodeBenchは、Long-contextのシナリオでLLMのコーディング能力をテストするためのベンチマークである。私たちは、Claude 3.5 Sonnetの29%から3%のパフォーマンス低下など、ロングコンテキストがすべてのモデルにとって弱点であることに気付きました。
論文参考訳（メタデータ） (2025-05-12T05:38:03Z)
From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models [54.44375226381814]
長いコンテキスト機能は、ドキュメントやビデオの理解、コンテキスト内学習、推論時間スケーリングなど、幅広いアプリケーションに不可欠である。コンテクスト長を128Kから1M,2M,4Mに制限し,コンテクスト長を128Kから4Mに抑えることで,超長コンテキストLCMを構築するための効率的なトレーニング手法を提案する。提案手法は,多種多様な長文ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-08T16:58:58Z)
NExtLong: Toward Effective Long-Context Training without Long Documents [28.002824369635768]
我々はNextLongを提案する。NextLongは、Negative Document Extensionを通じて、長文データのための新しいフレームワークである。 NExtLongは文書を複数のメタチャンクに分解し、事前学習したコーパスから取得したハードネガティブなイントラクタをインターリーブすることによってコンテキストを拡張する。大規模な実験により、NExtLongは既存の長文合成手法と比較して、大幅な性能向上を実現している。
論文参考訳（メタデータ） (2025-01-22T10:01:54Z)
How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。 ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文参考訳（メタデータ） (2024-10-03T16:46:52Z)
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。 Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。以上の結果から,Llama3-ChatQA-2-70Bモデルは既存の最先端モデルよりも優れていた。
論文参考訳（メタデータ） (2024-07-19T17:35:47Z)
LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。我々は合成データを作成する2つの新しい方法を開発した。 LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-06-02T03:34:41Z)
LongEmbed: Extending Embedding Models for Long Context Retrieval [87.60404151086715]
本稿では、埋め込みモデルのコンテキストウィンドウ拡張について検討し、追加のトレーニングを必要とせず、制限を32kまで押し上げる。まず、新たに構築したLongEmbedベンチマークにおいて、コンテキスト検索のための現在の埋め込みモデルの性能について検討する。実験では、PlaceRoのようなトレーニング不要のコンテキストウィンドウ拡張戦略が、既存の埋め込みモデルのコンテキストウィンドウを複数の折り畳みで効果的に拡張できることが示されている。
論文参考訳（メタデータ） (2024-04-18T11:29:23Z)
Training-Free Long-Context Scaling of Large Language Models [114.53296002607993]
我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
論文参考訳（メタデータ） (2024-02-27T12:39:23Z)
Long-Context Language Modeling with Parallel Context Encoding [37.64884969997378]
既存のデコーダのみのLLMに適用可能なフレームワークを導入し、コンテキストウィンドウを拡張する。 CEPEは小さなエンコーダを使用して長い入力チャンクをチャンク単位で処理し、冷凍復号器はクロスアテンションを介して追加のコンテキストを利用することができる。 CEPEは、言語モデリングとコンテキスト内学習に強いパフォーマンスをもたらす。
論文参考訳（メタデータ） (2024-02-26T14:47:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。