Fugu-MT 論文翻訳(概要): LIFT: Improving Long Context Understanding Through Long Input Fine-Tuning

論文の概要: LIFT: Improving Long Context Understanding Through Long Input Fine-Tuning

arxiv url: http://arxiv.org/abs/2412.13626v1
Date: Wed, 18 Dec 2024 09:04:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-19 16:46:52.122273
Title: LIFT: Improving Long Context Understanding Through Long Input Fine-Tuning
Title（参考訳）: LIFT:Long Input Fine-TuningによるLong Context理解の改善
Authors: Yansheng Mao, Jiaqi Li, Fanxu Meng, Jing Xiong, Zilong Zheng, Muhan Zhang,
Abstract要約: 本稿では,ロングコンテキストモデリングのための Long Input Fine-Tuning (LIFT) を提案する。 LIFTは、オフライン長文適応の計算負担を伴わずに、長時間入力の効率的な処理を可能にする。このフレームワークは、コンテキスト内学習とLIFT前教師付き微調整を統合することでさらに強化されている。
参考スコア（独自算出の注目度）: 35.31849814789343
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Long context understanding remains challenging for large language models due to their limited context windows. This paper introduces Long Input Fine-Tuning (LIFT) for long context modeling, a novel framework that enhances LLM performance on long-context tasks by adapting model parameters to the context at test time. LIFT enables efficient processing of lengthy inputs without the computational burden of offline long-context adaptation, and can improve the long-context capabilities of arbitrary short-context models. The framework is further enhanced by integrating in-context learning and pre-LIFT supervised fine-tuning. The combination of in-context learning and LIFT enables short-context models like Llama 3 to handle arbitrarily long contexts and consistently improves their performance on popular long-context benchmarks like LooGLE and LongBench. We also provide a comprehensive analysis of the strengths and limitations of LIFT on long context understanding, offering valuable directions for future research.
Abstract（参考訳）: コンテキストウィンドウが限られているため、大きな言語モデルでは長いコンテキスト理解が依然として困難である。本稿では,Long Input Fine-Tuning(LIFT)を長期コンテキストモデリングに適用する。これは,テスト時にコンテキストにモデルパラメータを適用することで,長期コンテキストタスクにおけるLLM性能を向上させる新しいフレームワークである。 LIFTは、オフライン長文適応の計算負担を伴わずに、長時間入力の効率的な処理を可能にし、任意の短文モデルの長文機能を改善することができる。このフレームワークは、コンテキスト内学習とLIFT前教師付き微調整を統合することでさらに強化されている。インコンテキスト学習とLIFTの組み合わせにより、Llama 3のような短コンテキストモデルでは、任意に長いコンテキストを処理でき、LooGLEやLongBenchといった一般的な長コンテキストベンチマークのパフォーマンスを一貫して改善することができる。また, LIFTの長期的理解における強みと限界を包括的に分析し, 今後の研究に有用な方向性を提供する。

関連論文リスト

WildLong: Synthesizing Realistic Long-Context Instruction Data at Scale [86.25450054683172]
WildLongは、実際のユーザクエリからメタ情報を取り出して、スケーラブルなデータを生成する。クロスドキュメント比較やアグリゲーションといったマルチドキュメント推論をサポートする。ベンチマーク全体で、既存のオープンソースの長期コンテキスト最適化モデルを上回っている。
論文参考訳（メタデータ） (2025-02-23T18:59:09Z)
LIFT: Improving Long Context Understanding of Large Language Models through Long Input Fine-Tuning [45.30182393918228]
Long Input Fine-Tuning (LIFT)は、ロングコンテキストモデリングのための新しいフレームワークである。 LIFTは長い入力に基づいてモデルパラメータを動的に適応する。 Gated Memoryは、長期入力記憶とICLを自動的にバランスをとる特別なアテンションアダプタである。
論文参考訳（メタデータ） (2025-02-20T15:32:24Z)
LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization [49.37607974207405]
LongPOはショート・ツー・ロングの嗜好データを利用して、ショート・コンテクストの機能をロング・コンテクストのタスクに転送する。 LongPOは短文性能を完全に保持し、長文タスクと短文タスクの両方において単純 SFT と DPO をほぼ上回っている。
論文参考訳（メタデータ） (2025-02-19T17:59:03Z)
NExtLong: Toward Effective Long-Context Training without Long Documents [28.002824369635768]
我々はNextLongを提案する。NextLongは、Negative Document Extensionを通じて、長文データのための新しいフレームワークである。 NExtLongは文書を複数のメタチャンクに分解し、事前学習したコーパスから取得したハードネガティブなイントラクタをインターリーブすることによってコンテキストを拡張する。大規模な実験により、NExtLongは既存の長文合成手法と比較して、大幅な性能向上を実現している。
論文参考訳（メタデータ） (2025-01-22T10:01:54Z)
What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文参考訳（メタデータ） (2024-10-31T09:39:28Z)
LongReward: Improving Long-context Large Language Models with AI Feedback [54.3321542678909]
LongRewardは、4次元の長文モデル応答に対して報酬を与える新しい方法である。実験の結果,LongRewardはモデル長文性能を大幅に向上するだけでなく,短い命令に従う能力も向上することがわかった。
論文参考訳（メタデータ） (2024-10-28T17:50:42Z)
LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。我々は合成データを作成する2つの新しい方法を開発した。 LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-06-02T03:34:41Z)
Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文参考訳（メタデータ） (2024-05-07T01:56:22Z)
LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。 2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。 LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文参考訳（メタデータ） (2023-11-08T01:45:37Z)
CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。 CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文参考訳（メタデータ） (2023-10-25T08:13:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。