論文の概要: Rethinking Multi-Objective Learning through Goal-Conditioned Supervised Learning
- arxiv url: http://arxiv.org/abs/2412.08911v2
- Date: Sat, 18 Jan 2025 00:35:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:18:24.522129
- Title: Rethinking Multi-Objective Learning through Goal-Conditioned Supervised Learning
- Title(参考訳): 目標設定型指導学習による多目的学習の再考
- Authors: Shijun Li, Hilaf Hasson, Jing Hu, Joydeep Ghosh,
- Abstract要約: 多目的学習は、1つのモデルで複数の目的を同時に最適化することを目的としている。
正確な学習プロセスを形式化し実行することの難しさに悩まされる。
本稿では,既存のシーケンシャルデータに基づいて,複数の目的を自動学習する汎用フレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.593384839118658
- License:
- Abstract: Multi-objective learning aims to optimize multiple objectives simultaneously with a single model for achieving a balanced and satisfying performance on all these objectives. However, it suffers from the difficulty to formalize and conduct the exact learning process, especially considering the possible conflicts between objectives. Existing approaches explores to resolve this primarily in two directions: adapting modeling structure or constraining optimization with certain assumptions. However, a primary issue is that their presuppositions for the effectiveness of their design are insufficient to guarantee the its generality in real-world applications. What's worse, the high space and computation complexity issue makes it even harder to apply them in large-scale, complicated environment such as the recommender systems. To address these issues, we propose a general framework for automatically learning to achieve multiple objectives based on the existing sequential data. We apply the goal-conditioned supervised learning (GCSL) framework to multi-objective learning, by extending the definition of goals from one-dimensional scalar to multi-dimensional vector that perfectly disentangle the representation of different objectives. Meanwhile, GCSL enables the model to simultaneously learn to achieve each objective in a concise supervised learning way, simply guided by existing sequences in the offline data. No additional constraint, special model structure design, or complex optimization algorithms are further required. Apart from that, we formally analyze the property of the goals in GCSL and then firstly propose a goal-generation framework to gain achievable and reasonable goals for inference. Extensive experiments are conducted on real-world recommendation datasets, demonstrating the effectiveness of the proposed method and exploring the feasibility of the goal-generation strategies in GCSL.
- Abstract(参考訳): 多目的学習は、複数の目的を同時に最適化することを目的としており、これらすべての目的に対してバランスよく満足なパフォーマンスを達成するための単一のモデルである。
しかし、特に目的間の衝突の可能性を考慮して、正確な学習プロセスを形式化し実行することの難しさに悩まされている。
既存のアプローチでは、モデリング構造に適応するか、特定の仮定で最適化を制約するかの2つの方向で、この問題を解決する方法を模索している。
しかし、主な問題は、それらの設計の有効性に対する前提が、現実の応用におけるその一般化を保証するには不十分であることである。
さらに悪いことに、高スペースと計算の複雑さの問題により、リコメンダシステムのような大規模で複雑な環境でそれらを適用することがさらに難しくなります。
これらの課題に対処するために,既存の逐次データに基づいて複数の目的を自動学習する汎用フレームワークを提案する。
目標を1次元スカラーから多次元ベクトルに拡張することで,目標条件付き教師あり学習(GCSL)フレームワークを多目的学習に適用する。
一方、GCSLは、オフラインデータの既存のシーケンスによってガイドされた簡潔な教師付き学習方法で、モデルがそれぞれの目的を達成することを同時に学習することを可能にする。
追加の制約、特別なモデル構造設計、複雑な最適化アルゴリズムは必要ない。
それとは別に、GCSLにおける目標の性質を正式に分析し、まず、達成可能な合理的な目標を推論するためにゴール生成フレームワークを提案する。
提案手法の有効性を実証し,GCSLにおける目標生成戦略の実現可能性について検討した。
関連論文リスト
- LLM-assisted Explicit and Implicit Multi-interest Learning Framework for Sequential Recommendation [50.98046887582194]
本研究では,ユーザの興味を2つのレベル – 行動と意味論 – でモデル化する,明示的で暗黙的な多目的学習フレームワークを提案する。
提案するEIMFフレームワークは,小型モデルとLLMを効果的に組み合わせ,多目的モデリングの精度を向上させる。
論文 参考訳(メタデータ) (2024-11-14T13:00:23Z) - LibMOON: A Gradient-based MultiObjective OptimizatioN Library in PyTorch [19.499639344055275]
機械学習では、多目的最適化問題(MOP)が一般的である。
本稿では,最先端勾配法をサポートする初の多目的最適化ライブラリであるLibMOONを紹介する。
論文 参考訳(メタデータ) (2024-09-04T07:44:43Z) - Multi-Objective Deep Reinforcement Learning for Optimisation in Autonomous Systems [3.2826250607043796]
MORL(Multi-Objective Reinforcement Learning)技術は存在するが、実世界のASシステムではなくRLベンチマークで採用されている。
本研究では,DWN(Deep W-Learning)と呼ばれるMORL技術を用いて,実行時性能最適化のための最適構成を求める。
我々はDWNとepsilon-greedyアルゴリズムとDeep Q-Networksの2つの単目的最適化実装を比較した。
論文 参考訳(メタデータ) (2024-08-02T11:16:09Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Common pitfalls to avoid while using multiobjective optimization in machine learning [1.2499537119440245]
機械学習(ML)における多目的最適化(MOO)の適用の探求への関心が高まっている。
その可能性にもかかわらず、MOOを使いたいML実践者のエントリーレベルガイドとして機能する十分な文献が不足している。
従来の研究、特に深層学習におけるMOO(物理情報ニューラルネットワーク(PINN)を手がかりに)に関する研究を批判的にレビューし、MLにおけるMOOの原則をよりよく把握する必要性を強調した誤解を特定する。
論文 参考訳(メタデータ) (2024-05-02T17:12:25Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Direction-oriented Multi-objective Learning: Simple and Provable
Stochastic Algorithms [12.776767874217663]
本稿では,方向近傍の共通降下方向を正規化することにより,新たな方向指向多目的問題を提案する。
マルチタスク型教師付き学習と強化学習の一連の課題において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-28T16:13:59Z) - gTLO: A Generalized and Non-linear Multi-Objective Deep Reinforcement
Learning Approach [2.0305676256390934]
Generalized Thresholded Lexicographic Ordering (gTLO)は、非線形MORLと一般化MORLの利点を組み合わせた新しい手法である。
我々は、非線形MORLの標準ベンチマークと製造プロセス制御の領域からの実世界の応用について有望な結果を示す。
論文 参考訳(メタデータ) (2022-04-11T10:06:49Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - A Unified Object Motion and Affinity Model for Online Multi-Object
Tracking [127.5229859255719]
オブジェクトの動きと親和性モデルを単一のネットワークに統一する新しいMOTフレームワークUMAを提案する。
UMAは、単一物体追跡とメートル法学習をマルチタスク学習により統合された三重項ネットワークに統合する。
我々は,タスク認識機能学習を促進するために,タスク固有のアテンションモジュールを装備する。
論文 参考訳(メタデータ) (2020-03-25T09:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。