Fugu-MT 論文翻訳(概要): SELF: Self-Extend the Context Length With Logistic Growth Function

論文の概要: SELF: Self-Extend the Context Length With Logistic Growth Function

arxiv url: http://arxiv.org/abs/2505.17296v1
Date: Thu, 22 May 2025 21:23:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:33.699253
Title: SELF: Self-Extend the Context Length With Logistic Growth Function
Title（参考訳）: SELF:ロジスティックな成長機能を備えたコンテキスト長の自己拡張
Authors: Phat Thanh Dang, Saahil Thoppay, Wang Yang, Qifan Wang, Vipin Chaudhary, Xiaotian Han,
Abstract要約: より小さい相対距離で一定のグループサイズと組み合わされたロジスティックキャパシティ方程式を用いて,異なるグループサイズでトークンをグループ化する方法であるSELFを提案する。 LEvalのLongLM拡張法と比較して,本モデルの性能は最大12%向上した。 LEvalからの理解タスクの読み上げでは,LongLMよりも5.4%向上した。
参考スコア（独自算出の注目度）: 24.523942828913405
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models suffer issues when operated on long contexts that are larger than their training context length due to the standard position encoding for tokens in the attention layer. Tokens a long distance apart will rarely have an effect on each other and long prompts yield unexpected results. To solve this problem, we propose SELF (Self-Extend the Context Length With Logistic Growth Function): a solution of grouping consecutive tokens at varying group sizes using a logistic capacity equation combined with a constant group size at smaller relative distances. Our model had an increase in performance of up to 12% compared to the LongLM extension method in LEval (specifically on the Qwen model). On summarization related tasks in LongBench, our model performed up to 6.4% better than LongLM (specifically on the Llama-2-7b model). On reading comprehension tasks from LEval, our model performed up to 5.4% better than the LongLM. Our code is available at https://github.com/alexeipc/SELF-LLM.
Abstract（参考訳）: 大きな言語モデルは、注意層におけるトークンの標準的な位置エンコーディングのため、トレーニングコンテキスト長よりも大きい長いコンテキストで操作した場合、問題に悩まされる。長い距離を遠ざけると、互いに影響を及ぼすことは滅多になく、長いプロンプトは予期せぬ結果をもたらす。この問題を解決するために、ロジスティックキャパシティ方程式を用いて、異なるグループサイズで連続トークンをグループ化するSELF(Self-Extend the Context Longngth With Logistic Growth Function)を提案する。 LEval(特にQwenモデル)のLongLM拡張法と比較して,本モデルの性能は最大12%向上した。 Llama-2-7bモデルでは,LongBenchの要約処理では,LongLMよりも最大6.4%向上した。 LEvalからの理解タスクの読み上げでは,LongLMよりも5.4%向上した。私たちのコードはhttps://github.com/alexeipc/SELF-LLM.comで利用可能です。

関連論文リスト

Too Long, Didn't Model: Decomposing LLM Long-Context Understanding With Novels [3.537369004801589]
Too Long, Didn't Modelベンチマークをリリースしました。プロットサマリー、ストーリーワールド構成、経過したストーリータイムを報告するモデルの能力をテストする。テストされた7つのフロンティアLSMのうち、64kトークン以上の安定な理解は得られていない。
論文参考訳（メタデータ） (2025-05-20T21:21:09Z)
LongProc: Benchmarking Long-Context Language Models on Long Procedural Generation [74.89981179257194]
LongProc (Long Procedural Generation)は、Long-Context Language Model (LCLM) を評価するための新しいベンチマークである。 LongProcは、HTMLページから構造化された情報をTSVフォーマットに抽出し、旅行計画を作成する複雑な検索手順を実行する6つの手続き生成タスクで構成されている。我々は,LongProcの命令調整モデルと最近の推論モデルを含む23個のLCLMを,500,2K,8Kで設定された最大出力トークン数で3つの難易度で評価した。
論文参考訳（メタデータ） (2025-01-09T18:16:55Z)
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。 Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。 RAGを用いた長文LLMの性能は,多数のチャンクを検索した場合に向上することがわかった。
論文参考訳（メタデータ） (2024-07-19T17:35:47Z)
Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。 Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。 Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文参考訳（メタデータ） (2024-04-09T17:30:48Z)
LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。我々はSelf-Instructを使って長い命令追従データセットを構築した。我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文参考訳（メタデータ） (2024-01-31T18:29:39Z)
LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning [67.39585115936329]
LLMには、微調整なしで長いコンテキストを処理できる固有の能力がある、と我々は主張する。バイレベルアテンション情報を構築することで,LLMのコンテキストウィンドウを拡張するためのSelfExtendを提案する。複数のベンチマークで包括的な実験を行い、その結果、既存のLLMのコンテキストウィンドウ長を効果的に拡張できることが示されている。
論文参考訳（メタデータ） (2024-01-02T18:30:51Z)
LongQLoRA: Efficient and Effective Method to Extend Context Length of Large Language Models [2.4366811507669124]
LongQLoRAは、トレーニングリソースの少ない大規模言語モデルのコンテキスト長を拡張する方法である。単一の32GB V100 GPUを使用すると、LongQLoRAはLLaMA2 7Bと13Bのコンテキスト長を4096年から8192、1000ステップ以内の12kにまで拡張することができる。 LongQLoRAはPG19とProof-Pileデータセット上での競合パープレキシティパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-11-08T18:33:06Z)
LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文参考訳（メタデータ） (2023-08-28T11:53:40Z)
Giraffe: Adventures in Expanding Context Lengths in LLMs [7.8327063299618]
線形スケーリングは文脈長を拡張するのに最適であることを示す。また,将来的な外挿機能についても検討した。この領域のさらなる研究を支援するために,13Bパラメータ長コンテキストモデルを新たに3つリリースする。
論文参考訳（メタデータ） (2023-08-21T17:30:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。