論文の概要: MapReduce LoRA: Advancing the Pareto Front in Multi-Preference Optimization for Generative Models
- arxiv url: http://arxiv.org/abs/2511.20629v1
- Date: Tue, 25 Nov 2025 18:49:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.633302
- Title: MapReduce LoRA: Advancing the Pareto Front in Multi-Preference Optimization for Generative Models
- Title(参考訳): MapReduce LoRA: 生成モデルのためのマルチパラメータ最適化におけるParetoフロントの改善
- Authors: Chieh-Yun Chen, Zhonghao Wang, Qi Chen, Zhifan Ye, Min Shi, Yue Zhao, Yinan Zhao, Hui Qu, Wei-An Lin, Yiru Shen, Ajinkya Kale, Irfan Essa, Humphrey Shi,
- Abstract要約: 人間のフィードバックからの強化学習は、生成モデルと人間の美学と知覚的嗜好を高度に一致させる。
MapReduce LoRA と Reward-aware Token Embedding (RaTE) の2つの補完手法を紹介する。
我々のフレームワークは、モダリティにまたがる新しい最先端のマルチ参照アライメントのレシピを定めている。
- 参考スコア(独自算出の注目度): 52.32146943039743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning from human feedback (RLHF) with reward models has advanced alignment of generative models to human aesthetic and perceptual preferences. However, jointly optimizing multiple rewards often incurs an alignment tax, improving one dimension while degrading others. To address this, we introduce two complementary methods: MapReduce LoRA and Reward-aware Token Embedding (RaTE). MapReduce LoRA trains preference-specific LoRA experts in parallel and iteratively merges them to refine a shared base model; RaTE learns reward-specific token embeddings that compose at inference for flexible preference control. Experiments on Text-to-Image generation (Stable Diffusion 3.5 Medium and FLUX.1-dev) show improvements of 36.1%, 4.6%, and 55.7%, and 32.7%, 4.3%, and 67.1% on GenEval, PickScore, and OCR, respectively. On Text-to-Video generation (HunyuanVideo), visual and motion quality improve by 48.1% and 90.0%, respectively. On the language task, Helpful Assistant, with Llama-2 7B, helpful and harmless improve by 43.4% and 136.7%, respectively. Our framework sets a new state-of-the-art multi-preference alignment recipe across modalities.
- Abstract(参考訳): 報酬モデルを用いた人間フィードバック(RLHF)からの強化学習は、生成モデルと人間の美学と知覚的嗜好を高度に一致させる。
しかし、複数の報酬を共同で最適化することは、しばしばアライメント税を発生させ、ある次元を改善しながら他の次元を劣化させる。
これを解決するために,MapReduce LoRA と Reward-aware Token Embedding (RaTE) の2つの補完手法を紹介した。
MapReduce LoRAは、プライオリティ固有のLoRA専門家を並列に訓練し、それらを反復的にマージして、共有ベースモデルを洗練します。
Stable Diffusion 3.5 MediumとFLUX.1-devによるテキスト・画像生成の実験では、それぞれ36.1%、4.6%、55.7%、32.7%、4.3%、67.1%がGenEval、PickScore、OCRで改善されている。
テキスト・トゥ・ビデオ・ジェネレーション(HunyuanVideo)では、視覚と運動の質がそれぞれ48.1%向上し、90.0%向上した。
言語タスクでは、Llama-2 7Bのヘルプフルアシスタントが、それぞれ43.4%と136.7%の改善に役立っている。
我々のフレームワークは、モダリティにまたがる新しい最先端のマルチ参照アライメントのレシピを定めている。
関連論文リスト
- Reasoning-guided Collaborative Filtering with Language Models for Explainable Recommendation [11.176352617829481]
RGCF-XRecは、推論誘導協調フィルタリング(CF)の知識を言語モデルに導入し、シーケンシャルなレコメンデーションを提供するハイブリッドフレームワークである。
Amazonのデータセット、Sports、Toys、Beautyで、642,503のユーザ-itemインタラクションを含む一貫した改善が示されている。
コールド・ウォーム・パフォーマンスのギャップを減らし、コールド・スタートで14.5%、ウォーム・スタートのシナリオで11.9%となる。
論文 参考訳(メタデータ) (2026-02-05T11:05:09Z) - SARA: Scene-Aware Reconstruction Accelerator [8.403194119298622]
SARAは、SfM(Structure-from-Motion)のための幾何学駆動のペア選択モジュールである。
視覚的類似性のみに基づいてペアを選択する従来のパイプラインとは異なり、SARAは幾何学第一対選択を導入する。
軽量のプレマッチングステージは、互いに近接する隣人とRANSACを使用して、再建情報度を推定する。
論文 参考訳(メタデータ) (2026-01-11T09:45:03Z) - Efficient Online RFT with Plug-and-Play LLM Judges: Unlocking State-of-the-Art Performance [0.0]
リワードモデルトレーニングは、現代の強化学習ヒューマンフィードバック(RLHF)パイプラインのコストボトルネックである。
提案手法では, 冷凍型7B LLMを1行とランク16のLORAアダプタで拡張する。
プラグ・アンド・プレイの審査員96.2%はRewardBenchの精度を達成し、27Bから70Bパラメータの特殊報酬ネットワークを上回っている。
論文 参考訳(メタデータ) (2025-06-06T05:18:54Z) - Reinforcement Learning for Reasoning in Large Language Models with One Training Example [117.86853102104256]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の算数推論能力の向上に有効であることを示す。
1ショットRLVRにおける興味深い現象として、クロスカテゴリの一般化、自己回帰の頻度の増加、テスト性能の向上の持続などを挙げる。
論文 参考訳(メタデータ) (2025-04-29T09:24:30Z) - Anyprefer: An Agentic Framework for Preference Data Synthesis [62.3856754548222]
ターゲットモデルを調整するための高品質な嗜好データを合成するフレームワークであるAnypreferを提案する。
審査員モデルの応答を正確に評価するために、外部ツールが導入される。
合成されたデータは、58Kの高品質な選好ペアからなる新しい選好データセットであるAnyprefer-V1にコンパイルされる。
論文 参考訳(メタデータ) (2025-04-27T15:21:59Z) - Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning [15.61345581743979]
次世代マルチモーダル推論モデルであるSkywork R1V2を提案する。
コアとなるR1V2では、ハイブリッド強化学習パラダイムが導入されている。
論文 参考訳(メタデータ) (2025-04-23T12:24:10Z) - Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - Dr. SoW: Density Ratio of Strong-over-weak LLMs for Reducing the Cost of Human Annotation in Preference Tuning [15.776175440446414]
本稿では,人間のアノテーションへの依存を解消するコスト効率の高い方法であるDr.SoW(Density Ratio of Strong over Weak)を紹介する。
Dr.SoW は報奨信号として、より整列した LLM と低整列の LLM の対数密度比を用いる。
Dr.SoWによるデータを用いたLlama-3-8B-インストラクタを選好する。
論文 参考訳(メタデータ) (2024-11-04T18:54:39Z) - Scalable Reinforcement Post-Training Beyond Static Human Prompts: Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
evaは、オフラインとオンラインのRLポストトレーニングの両方で、言語モデルがトレーニングプロンプトを適応的に作成できるようにする最初の方法である。
我々は,エバが有効なRLキュリキュラを作成でき,アブレーションにまたがって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-10-31T08:15:32Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences [21.5605000515622]
本稿では,大言語モデル(LLM)の学習後,オラクルからの嗜好フィードバックを用いて,モデル自体を反復的に改善する手法について検討する。
提案手法は,理論的な一般化と対照的な学習の単純さと安定性を,一般の選好の最適化からマージする,証明可能かつ効率的なアルゴリズムである。
実験で得られた 7B パラメータ Orca-2.5 モデルは,AlpacaE 2.0 上で 33% の GPT-4-Turbo に対して,初期化モデルに対して 26% (7% から 33%) の絶対ゲインを達成した。
論文 参考訳(メタデータ) (2024-04-04T17:56:41Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。