論文の概要: Rethinking Multi-Objective Learning through Goal-Conditioned Supervised Learning
- arxiv url: http://arxiv.org/abs/2412.08911v2
- Date: Sat, 18 Jan 2025 00:35:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:18:24.522129
- Title: Rethinking Multi-Objective Learning through Goal-Conditioned Supervised Learning
- Title(参考訳): 目標設定型指導学習による多目的学習の再考
- Authors: Shijun Li, Hilaf Hasson, Jing Hu, Joydeep Ghosh,
- Abstract要約: 多目的学習は、1つのモデルで複数の目的を同時に最適化することを目的としている。
正確な学習プロセスを形式化し実行することの難しさに悩まされる。
本稿では,既存のシーケンシャルデータに基づいて,複数の目的を自動学習する汎用フレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.593384839118658
- License:
- Abstract: Multi-objective learning aims to optimize multiple objectives simultaneously with a single model for achieving a balanced and satisfying performance on all these objectives. However, it suffers from the difficulty to formalize and conduct the exact learning process, especially considering the possible conflicts between objectives. Existing approaches explores to resolve this primarily in two directions: adapting modeling structure or constraining optimization with certain assumptions. However, a primary issue is that their presuppositions for the effectiveness of their design are insufficient to guarantee the its generality in real-world applications. What's worse, the high space and computation complexity issue makes it even harder to apply them in large-scale, complicated environment such as the recommender systems. To address these issues, we propose a general framework for automatically learning to achieve multiple objectives based on the existing sequential data. We apply the goal-conditioned supervised learning (GCSL) framework to multi-objective learning, by extending the definition of goals from one-dimensional scalar to multi-dimensional vector that perfectly disentangle the representation of different objectives. Meanwhile, GCSL enables the model to simultaneously learn to achieve each objective in a concise supervised learning way, simply guided by existing sequences in the offline data. No additional constraint, special model structure design, or complex optimization algorithms are further required. Apart from that, we formally analyze the property of the goals in GCSL and then firstly propose a goal-generation framework to gain achievable and reasonable goals for inference. Extensive experiments are conducted on real-world recommendation datasets, demonstrating the effectiveness of the proposed method and exploring the feasibility of the goal-generation strategies in GCSL.
- Abstract(参考訳): 多目的学習は、複数の目的を同時に最適化することを目的としており、これらすべての目的に対してバランスよく満足なパフォーマンスを達成するための単一のモデルである。
しかし、特に目的間の衝突の可能性を考慮して、正確な学習プロセスを形式化し実行することの難しさに悩まされている。
既存のアプローチでは、モデリング構造に適応するか、特定の仮定で最適化を制約するかの2つの方向で、この問題を解決する方法を模索している。
しかし、主な問題は、それらの設計の有効性に対する前提が、現実の応用におけるその一般化を保証するには不十分であることである。
さらに悪いことに、高スペースと計算の複雑さの問題により、リコメンダシステムのような大規模で複雑な環境でそれらを適用することがさらに難しくなります。
これらの課題に対処するために,既存の逐次データに基づいて複数の目的を自動学習する汎用フレームワークを提案する。
目標を1次元スカラーから多次元ベクトルに拡張することで,目標条件付き教師あり学習(GCSL)フレームワークを多目的学習に適用する。
一方、GCSLは、オフラインデータの既存のシーケンスによってガイドされた簡潔な教師付き学習方法で、モデルがそれぞれの目的を達成することを同時に学習することを可能にする。
追加の制約、特別なモデル構造設計、複雑な最適化アルゴリズムは必要ない。
それとは別に、GCSLにおける目標の性質を正式に分析し、まず、達成可能な合理的な目標を推論するためにゴール生成フレームワークを提案する。
提案手法の有効性を実証し,GCSLにおける目標生成戦略の実現可能性について検討した。
関連論文リスト
- Benchmarking General-Purpose In-Context Learning [19.40952728849431]
In-context Learning (ICL) は、生成モデルに新しいタスクを効果的に、かつ効率的にオンザフライで対処する権限を与える。
本稿では,より広い範囲の課題に対処するためのICLの拡張について検討する。
GPICLの機能のトレーニングと評価に特化して開発されたベンチマークを2つ導入する。
論文 参考訳(メタデータ) (2024-05-27T14:50:42Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Cycle Consistency Driven Object Discovery [75.60399804639403]
本研究では,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。
これらの一貫性目標を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。
提案手法は,オブジェクト発見を改善するだけでなく,下流タスクのよりリッチな機能も提供することを示唆している。
論文 参考訳(メタデータ) (2023-06-03T21:49:06Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Unified Algorithms for RL with Decision-Estimation Coefficients: PAC, Reward-Free, Preference-Based Learning, and Beyond [28.118197762236953]
我々は,大規模な学習目標のための統一的なアルゴリズムフレームワークを開発する。
我々のフレームワークは、非回帰RL、PAC RL、報酬なし学習、モデル推定、嗜好に基づく学習など、多くの学習目標を処理する。
応用として、一般化されたDECを有界化するための自然な十分条件として「分解可能表現」を提案する。
論文 参考訳(メタデータ) (2022-09-23T17:47:24Z) - Learning Multi-Objective Curricula for Deep Reinforcement Learning [55.27879754113767]
深部強化学習(DRL)のサンプル効率と最終性能を向上させるために,各種自動カリキュラム学習(ACL)手法が提案されている。
本稿では,多目的だがコヒーレントなカリキュラムを作成するための統合された自動カリキュラム学習フレームワークを提案する。
既存の手設計のカリキュラムパラダイムに加えて,抽象カリキュラムを学習するためのフレキシブルなメモリ機構を設計する。
論文 参考訳(メタデータ) (2021-10-06T19:30:25Z) - From STL Rulebooks to Rewards [4.859570041295978]
本稿では,多目的の強化学習のための報酬形成のための原則的アプローチを提案する。
まずSTLに新しい定量的セマンティクスを組み、個々の要求を自動的に評価する。
次に,複数の要件の評価を1つの報酬に体系的に組み合わせる手法を開発した。
論文 参考訳(メタデータ) (2021-10-06T14:16:59Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - A Distributional View on Multi-Objective Policy Optimization [24.690800846837273]
大規模不変な方法で目的の好みを設定することができる多目的強化学習アルゴリズムを提案する。
フレームワーク内で異なる好みを設定することで、非支配的なソリューションの空間を追跡できることを示す。
論文 参考訳(メタデータ) (2020-05-15T13:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。