論文の概要: Conditioned Language Policy: A General Framework for Steerable Multi-Objective Finetuning
- arxiv url: http://arxiv.org/abs/2407.15762v1
- Date: Mon, 22 Jul 2024 16:13:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 14:11:00.956573
- Title: Conditioned Language Policy: A General Framework for Steerable Multi-Objective Finetuning
- Title(参考訳): Conditioned Language Policy: ステアブルな多目的ファインタニングのための汎用フレームワーク
- Authors: Kaiwen Wang, Rahul Kidambi, Ryan Sullivan, Alekh Agarwal, Christoph Dann, Andrea Michi, Marco Gelmi, Yunxuan Li, Raghav Gupta, Avinava Dubey, Alexandre Ramé, Johan Ferret, Geoffrey Cideron, Le Hou, Hongkun Yu, Amr Ahmed, Aranyak Mehta, Léonard Hussenot, Olivier Bachem, Edouard Leurent,
- Abstract要約: 本稿では,多目的言語モデルを微調整するためのフレームワークである条件付き言語ポリシー(CLP)を提案する。
マルチタスクトレーニングとパラメータ効率の微調整のテクニックに基づいて、CLPは推論時に競合する目的を効果的にトレードオフするステアブルモデルを学ぶことができる。
- 参考スコア(独自算出の注目度): 72.46388818127105
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reward-based finetuning is crucial for aligning language policies with intended behaviors (e.g., creativity and safety). A key challenge here is to develop steerable language models that trade-off multiple (conflicting) objectives in a flexible and efficient manner. This paper presents Conditioned Language Policy (CLP), a general framework for finetuning language models on multiple objectives. Building on techniques from multi-task training and parameter-efficient finetuning, CLP can learn steerable models that effectively trade-off conflicting objectives at inference time. Notably, this does not require training or maintaining multiple models to achieve different trade-offs between the objectives. Through an extensive set of experiments and ablations, we show that the CLP framework learns steerable models that outperform and Pareto-dominate the current state-of-the-art approaches for multi-objective finetuning.
- Abstract(参考訳): リワードベースの微調整は、言語ポリシーを意図した行動(創造性と安全性など)と整合させることに不可欠である。
ここでの重要な課題は、複数の(競合する)目標を柔軟かつ効率的な方法でトレードオフする、ステアブル言語モデルを開発することです。
本稿では,多目的言語モデルを微調整するための一般的なフレームワークである条件付き言語ポリシー(CLP)を提案する。
マルチタスクトレーニングとパラメータ効率の微調整のテクニックに基づいて、CLPは推論時に競合する目的を効果的にトレードオフするステアブルモデルを学ぶことができる。
特に、目標間の異なるトレードオフを達成するために、トレーニングや複数のモデルのメンテナンスは必要ありません。
CLPフレームワークは広範な実験と改善を通じて,多目的ファインタニングにおける現在の最先端のアプローチを上回り,パレートが優位に立つステアブルモデルを学ぶことを示す。
関連論文リスト
- Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - A Comparison of Language Modeling and Translation as Multilingual Pretraining Objectives [13.581385765600265]
プレトレーニング言語モデル(PLM)は優れたパフォーマンスを示し、NLPコミュニティの注目を集めている。
本稿では,制御された方法論環境における多言語事前学習目標の比較を提案する。
論文 参考訳(メタデータ) (2024-07-22T09:16:30Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Forging Multiple Training Objectives for Pre-trained Language Models via
Meta-Learning [97.28779163988833]
複数の事前学習目標が単一目的言語モデリングの理解能力の欠如を埋める。
メタラーニングに基づく新しい適応型サンプリングシステムであるtextitMOMETAS を提案し,任意の事前学習対象に対して潜時サンプリングパターンを学習する。
論文 参考訳(メタデータ) (2022-10-19T04:38:26Z) - Context-Aware Language Modeling for Goal-Oriented Dialogue Systems [84.65707332816353]
我々は、部分的に観察されたマルコフ決定過程としてゴール指向対話を定式化する。
目的を意識して言語モデルを微調整する,シンプルで効果的な手法を考案する。
本研究では,AirDialogue を用いた実践的なフライト予約タスクについて評価する。
論文 参考訳(メタデータ) (2022-04-18T17:23:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。