Fugu-MT 論文翻訳(概要): Preference Packing: Efficient Preference Optimization for Large Language Models

論文の概要: Preference Packing: Efficient Preference Optimization for Large Language Models

arxiv url: http://arxiv.org/abs/2602.24082v1
Date: Fri, 27 Feb 2026 15:19:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-02 19:48:24.483548
Title: Preference Packing: Efficient Preference Optimization for Large Language Models
Title（参考訳）: 参照パッキング:大規模言語モデルの効率的な参照最適化
Authors: Jaekyung Cho,
Abstract要約: 選好パッキング(英: preference packing)とは、異なる応答を持つデータを同じ入力プロンプトに使用する訓練手法において、リソース効率を高める方法である。テキストのみのデータセットと画像を含むデータセットの実験を行い、トレーニング時間を少なくとも37%削減した。
参考スコア（独自算出の注目度）: 2.2234715500748075
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Resource-efficient training optimization techniques are becoming increasingly important as the size of large language models (LLMs) continues to grow. In particular, batch packing is commonly used in pre-training and supervised fine-tuning to achieve resource-efficient training. We propose preference packing, a method to enhance resource efficiency in training techniques that use data with different responses for the same input prompt, such as reward models or Direct Preference Optimization (DPO). Preference packing improves resource efficiency by reducing the attention operations for duplicate input prompts and decreasing KV cache memory usage. We conducted experiments on text-only datasets and image-included datasets and achieved at least 37% reduction in training time. Notably, this method can be applied alongside existing optimization techniques such as batch sorting, resulting in a 3.22x speedup.
Abstract（参考訳）: 大規模言語モデル(LLM)のサイズが拡大するにつれ、リソース効率のトレーニング最適化技術の重要性が高まっている。特に、バッチパッキングは、リソース効率のトレーニングを達成するために、事前トレーニングや教師付き微調整に一般的に使用される。本稿では、報酬モデルや直接優先度最適化(DPO)など、同じ入力プロンプトに対して異なる応答を持つデータを使用する訓練手法において、リソース効率を向上させる方法である選好パッキングを提案する。優先パッキングは、重複した入力プロンプトの注意操作を減らし、KVキャッシュメモリの使用を減らし、リソース効率を向上させる。テキストのみのデータセットと画像を含むデータセットの実験を行い、トレーニング時間を少なくとも37%削減した。特に、この手法はバッチソートのような既存の最適化手法と共に適用でき、3.22倍のスピードアップをもたらす。

関連論文リスト

Adaptive Preference Optimization with Uncertainty-aware Utility Anchor [33.74005997646761]
オフライン優先最適化手法は、大規模言語モデル(LLM)のアライメントに効率的である。提案手法は, 嗜好データアノテーションから生じる不確実性を推定するアンカー機能を導入し, オフラインの選好最適化手法の一般的なフレームワークを提案する。本手法は,データ不備のシナリオにおいてもトレーニングが可能であり,データ利用効率を大幅に向上させる。
論文参考訳（メタデータ） (2025-09-03T10:20:08Z)
Listwise Preference Alignment Optimization for Tail Item Recommendation [29.20780001894192]
ペアワイズ比較からリストワイズ比較までブラッドリー・テリーモデルを拡張するLPO4Recを提案する。具体的には、明確な報酬モデルなしでより効率的で効果的なトレーニングを可能にするために、クローズドフォームの最適ポリシーを導出する。 3つの公開データセットに対する実験により、我々の手法は10の基準値よりも大きなマージンで優れていることが示された。
論文参考訳（メタデータ） (2025-07-03T03:08:23Z)
A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文参考訳（メタデータ） (2025-03-02T13:43:53Z)
PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection [68.8373788348678]
ビジュアルインストラクションチューニングは、事前訓練されたマルチモーダル大言語モデルに人間の指示に従うように適応する。 PRISMは、効率的な視覚的命令選択のための最初のトレーニング不要のフレームワークである。データ選択とモデルチューニングのエンドツーエンドの時間を従来のパイプラインの30%に短縮する。
論文参考訳（メタデータ） (2025-02-17T18:43:41Z)
Breaking the Frozen Subspace: Importance Sampling for Low-Rank Optimization in LLM Pretraining [43.39070237124361]
低ランク最適化は、大きな言語モデルのメモリ効率のトレーニングを可能にするための有望なアプローチである。これらの手法の鍵となる課題は、効果的な軌道を確保するために適切な部分空間を選択することである。本稿では,LLMプリトレーニングにおける低ランク最適化のための重要サンプリングについて提案する。
論文参考訳（メタデータ） (2025-02-09T06:30:19Z)
APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
CodeACT: Code Adaptive Compute-efficient Tuning Framework for Code LLMs [30.441431693349866]
既存の方法は、微調整のための膨大な量の合成データを生成し、訓練の効率を損なう。 CodeACTはCDAS(Complexity and Diversity Aware Smpling)メソッドを導入し、高品質なトレーニングデータを選択する。 CodeACTはHumanEvalのパフォーマンスが8.6%向上し、トレーニング時間を78%削減し、ピーク時のGPUメモリ使用量を27%削減した。
論文参考訳（メタデータ） (2024-08-05T02:38:48Z)
ALPS: Improved Optimization for Highly Sparse One-Shot Pruning for Large Language Models [26.150559375072476]
ALPSは,演算子分割法と事前条件付き勾配共役型後処理法を用いて,プルーニング問題に対処する最適化ベースのフレームワークである。提案手法はベクトル化とGPU並列性を有効利用しながら収束を加速し理論的に保証する新しい手法を取り入れている。 OPT-30Bモデルでは70%の間隔で、ALPSはWikiTextデータセットにおけるテストの難易度を13%削減し、既存の手法と比較してゼロショットベンチマークのパフォーマンスを19%改善した。
論文参考訳（メタデータ） (2024-06-12T02:57:41Z)
CoLLiE: Collaborative Training of Large Language Models in an Efficient Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文参考訳（メタデータ） (2023-12-01T08:02:16Z)
Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文参考訳（メタデータ） (2023-07-19T04:07:33Z)
CAME: Confidence-guided Adaptive Memory Efficient Optimization [20.009302737137787]
適応勾配法は大規模言語モデルの訓練において優れた性能を示した。二次モーメント推定の維持には、メモリオーバーヘッドの増大を高いコストで維持する必要がある。補助メモリ使用量の大幅な削減を実現するために、いくつかのメモリ効率が提案されているが、性能上のペナルティがある。我々は,従来の適応手法のように高速収束,メモリ効率の低い2つの目標を同時に達成するために,CAMEを提案する。
論文参考訳（メタデータ） (2023-07-05T06:05:36Z)
Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1～3%改善する。
論文参考訳（メタデータ） (2020-11-20T06:16:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。