Fugu-MT 論文翻訳(概要): LOGO -- Long cOntext aliGnment via efficient preference Optimization

論文の概要: LOGO -- Long cOntext aliGnment via efficient preference Optimization

arxiv url: http://arxiv.org/abs/2410.18533v1
Date: Thu, 24 Oct 2024 08:27:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.819973
Title: LOGO -- Long cOntext aliGnment via efficient preference Optimization
Title（参考訳）: LOGO -- 効率的な選好最適化によるLong cOntext aliGnment
Authors: Zecheng Tang, Zechen Sun, Juntao Li, Qiaoming Zhu, Min Zhang,
Abstract要約: LOGO(Long cOntext aliGnment via efficient preference optimization)は、長文アライメントのための優先最適化を導入するトレーニング戦略である。たった0.3Bのデータを1台の8$times$A800 GPUマシンで16時間トレーニングすることで、LOGOはLlama-3-8B-Instruct-80KモデルをGPT-4と同等のパフォーマンスを達成することができる。
参考スコア（独自算出の注目度）: 29.510993993980573
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Long-context models(LCMs) have shown great potential in processing long input sequences(even more than 100M tokens) conveniently and effectively. With significant progress, recent research has pointed out that LCMs can accurately locate token-level salient information within the context. Yet, the generation performance of these LCMs is far from satisfactory and might result in misaligned responses, such as hallucinations. To enhance the generation capability of LCMs, existing works have investigated the effects of data size and quality for both pre-training and instruction tuning. Though achieving meaningful improvement, previous methods fall short in either effectiveness or efficiency. In this paper, we introduce LOGO(Long cOntext aliGnment via efficient preference Optimization), a training strategy that first introduces preference optimization for long-context alignment. To overcome the GPU memory-bound issue caused by the long sequence, LOGO employs a reference-free preference optimization strategy and adopts a position synthesis method to construct the training data. By training with only 0.3B data on a single 8$\times$A800 GPU machine for 16 hours, LOGO allows the Llama-3-8B-Instruct-80K model to achieve comparable performance with GPT-4 in real-world long-context tasks while preserving the model's original capabilities on other tasks, e.g., language modeling and MMLU. Moreover, LOGO can extend the model's context window size while enhancing its generation performance.
Abstract（参考訳）: 長文モデル(LCM)は、長文入力シーケンス(100万以上のトークン)を便利かつ効果的に処理する大きな可能性を示している。近年の研究では、LCMがコンテキスト内でトークンレベルの有能な情報を正確に特定できることが指摘されている。しかし、これらのLCMの生成性能は満足には程遠いため、幻覚などの不整合反応が生じる可能性がある。 LCMの生成能力を高めるため、既存の研究は、事前学習と指導訓練の両方におけるデータサイズと品質の影響を調査した。有意義な改善を実現する一方で、従来の手法は効率性または効率性に欠ける。本稿では,Long cOntext aliGnment (Long cOntext aliGnment via efficient preference Optimization)を導入する。長いシーケンスに起因するGPUメモリバウンドの問題を克服するため、LOGOは参照不要な優先最適化戦略を採用し、トレーニングデータを構築するために位置合成法を採用している。 LOGOは、1つの8$\times$A800 GPUマシンにたった0.3Bのデータで16時間トレーニングすることで、Llama-3-8B-Instruct-80Kモデルが現実世界の長文タスクでGPT-4と同等のパフォーマンスを達成できると同時に、他のタスク(例えば言語モデリングやMMLU)でモデルの本来の機能を保存することができる。さらに、LOGOは、生成性能を高めながら、モデルのコンテキストウィンドウサイズを拡張することができる。

関連論文リスト

Direct Behavior Optimization: Unlocking the Potential of Lightweight LLMs [9.085280547983091]
DeBoPはLwLLMの動作を直接最適化する自動最適化手法である。現状のLLMが優れているが、LwLLMは一般的に性能が劣る7つの課題についてDeBoPを評価した。 DeBoPに最適化されたLwLLMは、ほとんどのタスクでGPT-3.5を超え、計算時間を約60%削減した。
論文参考訳（メタデータ） (2025-06-06T02:40:42Z)
Divide, Optimize, Merge: Fine-Grained LLM Agent Optimization at Scale [19.60416591361918]
Fine-Grained Optimization (FGO)は、大規模最適化タスクを管理可能なサブセットに分割し、ターゲット最適化を実行し、プログレッシブマージを通じて最適化されたコンポーネントを体系的に結合するスケーラブルなフレームワークである。 ALFWorld、LogisticsQA、GAIAベンチマークによる評価では、FGOは既存のアプローチを1.6-8.6%上回り、平均的なプロンプトトークン消費量を56.3%削減している。
論文参考訳（メタデータ） (2025-05-06T20:50:27Z)
From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models [54.44375226381814]
長いコンテキスト機能は、ドキュメントやビデオの理解、コンテキスト内学習、推論時間スケーリングなど、幅広いアプリケーションに不可欠である。コンテクスト長を128Kから1M,2M,4Mに制限し,コンテクスト長を128Kから4Mに抑えることで,超長コンテキストLCMを構築するための効率的なトレーニング手法を提案する。提案手法は,多種多様な長文ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-08T16:58:58Z)
Rethinking Graph Structure Learning in the Era of LLMs [29.867262599990227]
Large Language and Tree Assistant (LLaTA)は、木に基づくLLMインコンテキスト学習を活用し、トポロジーとテキストの理解を強化する。 10のデータセットに対する大規模な実験は、LLaTAが任意のバックボーンを組み込んだ柔軟性を享受していることを示している。
論文参考訳（メタデータ） (2025-03-27T07:28:30Z)
GReaTer: Gradients over Reasoning Makes Smaller Language Models Strong Prompt Optimizers [52.17222304851524]
本稿では,タスク固有の推論よりも勾配情報を直接組み込む新しいプロンプト最適化手法であるGReaTerを紹介する。 GReaTerはタスク損失勾配を利用して、オープンソースの軽量言語モデルのためのプロンプトの自己最適化を可能にする。 GReaTerは、従来の最先端のプロンプト最適化手法を一貫して上回っている。
論文参考訳（メタデータ） (2024-12-12T20:59:43Z)
GRL-Prompt: Towards Knowledge Graph based Prompt Optimization via Reinforcement Learning [8.307785339429863]
大規模言語モデル(LLM)の迅速な最適化のための新しいフレームワークを提案する。 GRL-Promptは、強化学習(RL)を通じて、エンドツーエンドで最適なプロンプトを自動構築することを目的としている。 GRL-Promptは最近の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2024-11-19T10:52:25Z)
Untie the Knots: An Efficient Data Augmentation Strategy for Long-Context Pre-Training in Language Models [21.90388980448712]
長いコンテキストを扱うためのトレーニングモデルには、大きな課題があります。継続事前学習フェーズで使用される新しいデータ拡張戦略であるUntie the Knots(textbfUtK)を紹介する。我々は、UtKがRULER上で128Kの文脈長で75%と84.5%の精度を達成したことを示す200億のトークンで訓練された7Bと72Bのパラメータを持つモデルに関する広範な実験を行った。
論文参考訳（メタデータ） (2024-09-07T09:28:55Z)
LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。 LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文参考訳（メタデータ） (2024-08-31T17:19:30Z)
Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文参考訳（メタデータ） (2024-06-12T16:58:41Z)
Revisiting OPRO: The Limitations of Small-Scale LLMs as Optimizers [15.809293135844756]
比較的小規模な言語モデル(LLM)を用いた自動プロンプトのためのOPROを再検討する。 OPROは小規模なLLMにおいて限られた有効性を示し、推論能力は最適化能力を制限している。我々は,モデル能力と計算コストの両方を考慮するために,将来的な自動プロンプトエンジニアリングを提案する。
論文参考訳（メタデータ） (2024-05-16T17:33:50Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
Large Language Models As Evolution Strategies [6.873777465945062]
本研究では,大規模言語モデル (LLM) が進化的最適化アルゴリズムを実装可能であるかどうかを考察する。我々は,最小から最多の集団集団を選別する新規なプロンプト戦略を導入する。我々の設定により、ユーザがLLMベースの進化戦略を得ることができ、それはEvoLLM'と呼ばれ、ベースラインアルゴリズムを頑健に上回る。
論文参考訳（メタデータ） (2024-02-28T15:02:17Z)
Unleashing the Potential of Large Language Models as Prompt Optimizers: An Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。モデルパラメータ学習における2つの重要な要素を同定する。特に、勾配に基づく最適化から理論的な枠組みや学習手法を借用し、改良された戦略を設計する。
論文参考訳（メタデータ） (2024-02-27T15:05:32Z)
Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文参考訳（メタデータ） (2024-02-18T14:08:48Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。