論文の概要: COS-DPO: Conditioned One-Shot Multi-Objective Fine-Tuning Framework
- arxiv url: http://arxiv.org/abs/2410.08316v3
- Date: Fri, 20 Jun 2025 14:52:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 14:57:50.876265
- Title: COS-DPO: Conditioned One-Shot Multi-Objective Fine-Tuning Framework
- Title(参考訳): COS-DPO:条件付きワンショット多目的ファインチューニングフレームワーク
- Authors: Yinuo Ren, Tesi Xiao, Michael Shavlovsky, Lexing Ying, Holakou Rahmanian,
- Abstract要約: 条件付きワンショットファインチューニングフレームワーク(COS-DPO)は、好みデータとのLLMアライメントを効率的に行うために開発された。
重み付きCOS-DPO法はパレートフロントをプロファイリングするための効率的なワンショットトレーニングプロセスを楽しむ。
温度-COS-DPO法は、モデル入力に対する温度パラメータを増大させ、後トレーニング制御の柔軟性を高める。
- 参考スコア(独自算出の注目度): 11.342075103251576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In LLM alignment and many other ML applications, one often faces the Multi-Objective Fine-Tuning (MOFT) problem, i.e., fine-tuning an existing model with datasets labeled w.r.t. different objectives simultaneously. To address the challenge, we propose a Conditioned One-Shot fine-tuning framework (COS-DPO) that extends the Direct Preference Optimization technique, originally developed for efficient LLM alignment with preference data, to accommodate the MOFT settings. By direct conditioning on the weight across auxiliary objectives, our Weight-COS-DPO method enjoys an efficient one-shot training process for profiling the Pareto front and is capable of achieving comprehensive trade-off solutions even in the post-training stage. Based on our theoretical findings on the linear transformation properties of the loss function, we further propose the Temperature-COS-DPO method that augments the temperature parameter to the model input, enhancing the flexibility of post-training control over the trade-offs between the main and auxiliary objectives. We demonstrate the effectiveness and efficiency of the COS-DPO framework through its applications to various tasks, including the Learning-to-Rank (LTR) and LLM alignment tasks, highlighting its viability for large-scale ML deployments.
- Abstract(参考訳): LLMアライメントやその他のMLアプリケーションでは、しばしばMOFT(Multi-Objective Fine-Tuning)問題に直面している。
この課題に対処するために,提案手法を拡張した条件付きワンショット微調整フレームワーク(COS-DPO)を提案する。
補助目的物間での重量の直接条件付けにより,本手法はパレートフロントをプロファイリングするための効率的なワンショットトレーニングプロセスであり,ポストトレーニング段階においても包括的トレードオフソリューションを実現することができる。
さらに,損失関数の線形変換特性に関する理論的知見に基づいて,温度パラメータをモデル入力に拡張し,主目的と補助目的とのトレードオフに対する後処理制御の柔軟性を向上させる温度-COS-DPO法を提案する。
我々は,COS-DPOフレームワークの有効性と効率を,LTR(Learning-to-Rank)やLLMアライメントタスクなど様々なタスクに適用し,大規模なMLデプロイメントの実現可能性を強調した。
関連論文リスト
- Robust Multi-Objective Preference Alignment with Online DPO [6.434799451791957]
多目的選好アライメントは、パーソナライズ可能で、有用で、安全であるAIシステムの開発に不可欠である。
既存のアプローチは、トレーニングに計算コストがかかるか、モデル動作を十分に制御できないかのいずれかである。
本稿では,多目的オンラインDPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-01T02:01:49Z) - CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs [107.21334626890713]
MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。
本稿では,これらの制約に対処するクロスモーダル階層型直接選好最適化(CHiP)を提案する。
定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。
論文 参考訳(メタデータ) (2025-01-28T02:05:38Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Unlocking Tuning-Free Few-Shot Adaptability in Visual Foundation Models by Recycling Pre-Tuned LoRAs [76.40876036912537]
大規模言語モデル(LLM)は、微調整を必要とせず、強力な少数ショット適応性を示す。
現在のVisual Foundation Models (VFM) は十分なチューニングデータを持つ明示的な微調整を必要とする。
そこで我々は, メタ学習目的の多様なLoRAからメタLoRAを蒸留するフレームワークであるLoRA Recycleを提案する。
論文 参考訳(メタデータ) (2024-12-03T07:25:30Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
本稿では,MLLMのマルチモーダル推論能力を高めるための選好最適化プロセスを提案する。
我々は,マルチモーダルCoT性能を向上する,MPO(Mixed Preference Optimization)と呼ばれるシンプルで効果的な手法を開発した。
我々のモデルであるInternVL2-8B-MPOは、MathVista上で67.0の精度を実現し、InternVL2-8Bを8.7ポイント上回り、10倍のInternVL2-76Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities [0.35998666903987897]
本稿では,Large Language Models (LLM) の微調整について検討する。
従来の自然言語処理(NLP)モデルから、AIにおける彼らの重要な役割まで、LLMの歴史的進化を概説している。
本報告では, 微調整LDMのための構造化7段パイプラインについて紹介する。
論文 参考訳(メタデータ) (2024-08-23T14:48:02Z) - Understanding Alignment in Multimodal LLMs: A Comprehensive Study [46.33812471516309]
マルチモーダル大言語モデル(MLLM)における嗜好アライメントのそれぞれの側面を解析する。
オフライン手法とオンライン手法を組み合わせることで,特定のシナリオにおけるモデルの性能が向上することを示す。
BDHS(Bias-Driven Hallucination Smpling)と呼ばれる,マルチモーダルな嗜好データ作成手法を提案する。
論文 参考訳(メタデータ) (2024-07-02T17:55:03Z) - Teola: Towards End-to-End Optimization of LLM-based Applications [13.478509565946354]
大規模言語モデル(LLM)ベースのアプリケーションは、エンドツーエンドのレイテンシに寄与する。
既存のフレームワークでは、各モジュールに最適化を限定するタスクモジュールによる粗粒度のオーケストレーションが採用されている。
タスクプリミティブを基本単位として,各クエリのワークフローをプリミティブレベルのデータフローグラフとして表現する,詳細なエンドツーエンドオーケストレーションを提案する。
論文 参考訳(メタデータ) (2024-06-29T05:59:53Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Using Large Language Models for Hyperparameter Optimization [29.395931874196805]
本稿では,高パラメータ最適化(HPO)における基礎的大規模言語モデル(LLM)の利用について検討する。
標準ベンチマークに対する実証的な評価により,LLMは従来のHPO手法に適合あるいは優れることがわかった。
論文 参考訳(メタデータ) (2023-12-07T18:46:50Z) - Self-Evolutionary Optimization for Pareto Front Learning [34.17125297176668]
マルチタスク問題に対する多目的最適化(MOO)手法が提案されている。
最近のMOO法は、単一の統一モデルで複数の最適解(パレートフロント)を近似する。
PFLは複数の目的を持つ別のMOO問題に再変換可能であることを示し、それぞれがタスクの好みの重みに対応していることを示す。
論文 参考訳(メタデータ) (2021-10-07T13:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。