論文の概要: HyperDPO: Hypernetwork-based Multi-Objective Fine-Tuning Framework
- arxiv url: http://arxiv.org/abs/2410.08316v1
- Date: Thu, 10 Oct 2024 19:06:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 04:06:19.022654
- Title: HyperDPO: Hypernetwork-based Multi-Objective Fine-Tuning Framework
- Title(参考訳): HyperDPO: ハイパーネットワークベースの多目的ファインチューニングフレームワーク
- Authors: Yinuo Ren, Tesi Xiao, Michael Shavlovsky, Lexing Ying, Holakou Rahmanian,
- Abstract要約: HyperDPOは、DPO(Direct Preference Optimization)技術を拡張するハイパーネットワークベースのアプローチである。
DPOのBradley-Terry-LuceモデルをPockett-Luceモデルに置き換えることで、我々のフレームワークは幅広いMOFTタスクを処理できる。
- 参考スコア(独自算出の注目度): 11.342075103251576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In LLM alignment and many other ML applications, one often faces the Multi-Objective Fine-Tuning (MOFT) problem, i.e. fine-tuning an existing model with datasets labeled w.r.t. different objectives simultaneously. To address the challenge, we propose the HyperDPO framework, a hypernetwork-based approach that extends the Direct Preference Optimization (DPO) technique, originally developed for efficient LLM alignment with preference data, to accommodate the MOFT settings. By substituting the Bradley-Terry-Luce model in DPO with the Plackett-Luce model, our framework is capable of handling a wide range of MOFT tasks that involve listwise ranking datasets. Compared with previous approaches, HyperDPO enjoys an efficient one-shot training process for profiling the Pareto front of auxiliary objectives, and offers flexible post-training control over trade-offs. Additionally, we propose a novel Hyper Prompt Tuning design, that conveys continuous weight across objectives to transformer-based models without altering their architecture. We demonstrate the effectiveness and efficiency of the HyperDPO framework through its applications to various tasks, including Learning-to-Rank (LTR) and LLM alignment, highlighting its viability for large-scale ML deployments.
- Abstract(参考訳): LLMアライメントやその他のMLアプリケーションでは、しばしばMOFT(Multi-Objective Fine-Tuning)問題に直面している。
この課題に対処するために,提案するハイパーネットワークベースの手法であるHyperDPOフレームワークを提案する。
このフレームワークは,DPOのBradley-Terry-LuceモデルをPlanet-Luceモデルに置き換えることで,リストワイズデータセットを含む幅広いMOFTタスクを処理できる。
従来のアプローチと比較して、HyperDPOは補助目標のパレートフロントをプロファイリングするための効率的なワンショットトレーニングプロセスを提供し、トレードオフに対する柔軟な後トレーニング制御を提供する。
さらに,提案するHyper Prompt Tuning設計では,アーキテクチャの変更を伴わずに,目標を横断して連続的な重みをトランスフォーマーベースモデルに伝達する。
本稿では,LTR(Learning-to-Rank)やLLMアライメントなど,さまざまなタスクに適用したHyperDPOフレームワークの有効性と効率を実証し,大規模なMLデプロイメントの実現可能性を強調した。
関連論文リスト
- Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
本稿では,MLLMのマルチモーダル推論能力を高めるための選好最適化プロセスを提案する。
我々は,マルチモーダルCoT性能を向上する,MPO(Mixed Preference Optimization)と呼ばれるシンプルで効果的な手法を開発した。
我々のモデルであるInternVL2-8B-MPOは、MathVista上で67.0の精度を実現し、InternVL2-8Bを8.7ポイント上回り、10倍のInternVL2-76Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities [0.35998666903987897]
本稿では,Large Language Models (LLM) の微調整について検討する。
従来の自然言語処理(NLP)モデルから、AIにおける彼らの重要な役割まで、LLMの歴史的進化を概説している。
本報告では, 微調整LDMのための構造化7段パイプラインについて紹介する。
論文 参考訳(メタデータ) (2024-08-23T14:48:02Z) - Understanding Alignment in Multimodal LLMs: A Comprehensive Study [46.33812471516309]
マルチモーダル大言語モデル(MLLM)における嗜好アライメントのそれぞれの側面を解析する。
オフライン手法とオンライン手法を組み合わせることで,特定のシナリオにおけるモデルの性能が向上することを示す。
BDHS(Bias-Driven Hallucination Smpling)と呼ばれる,マルチモーダルな嗜好データ作成手法を提案する。
論文 参考訳(メタデータ) (2024-07-02T17:55:03Z) - Teola: Towards End-to-End Optimization of LLM-based Applications [13.478509565946354]
大規模言語モデル(LLM)ベースのアプリケーションは、エンドツーエンドのレイテンシに寄与する。
既存のフレームワークでは、各モジュールに最適化を限定するタスクモジュールによる粗粒度のオーケストレーションが採用されている。
タスクプリミティブを基本単位として,各クエリのワークフローをプリミティブレベルのデータフローグラフとして表現する,詳細なエンドツーエンドオーケストレーションを提案する。
論文 参考訳(メタデータ) (2024-06-29T05:59:53Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Using Large Language Models for Hyperparameter Optimization [29.395931874196805]
本稿では,高パラメータ最適化(HPO)における基礎的大規模言語モデル(LLM)の利用について検討する。
標準ベンチマークに対する実証的な評価により,LLMは従来のHPO手法に適合あるいは優れることがわかった。
論文 参考訳(メタデータ) (2023-12-07T18:46:50Z) - Self-Evolutionary Optimization for Pareto Front Learning [34.17125297176668]
マルチタスク問題に対する多目的最適化(MOO)手法が提案されている。
最近のMOO法は、単一の統一モデルで複数の最適解(パレートフロント)を近似する。
PFLは複数の目的を持つ別のMOO問題に再変換可能であることを示し、それぞれがタスクの好みの重みに対応していることを示す。
論文 参考訳(メタデータ) (2021-10-07T13:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。