論文の概要: Align on the Fly: Adapting Chatbot Behavior to Established Norms
- arxiv url: http://arxiv.org/abs/2312.15907v1
- Date: Tue, 26 Dec 2023 06:51:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 15:43:37.332867
- Title: Align on the Fly: Adapting Chatbot Behavior to Established Norms
- Title(参考訳): アライグ・オン・ザ・フライ:確立したノルムにチャットボットの振る舞いを適応させる
- Authors: Chunpu Xu, Steffi Chern, Ethan Chern, Ge Zhang, Zekun Wang, Ruibo Liu,
Jing Li, Jie Fu, Pengfei Liu
- Abstract要約: 本稿では,リアルタイムアライメントであるオン・ザ・フライ・パラメータ最適化(OPO)手法を提案する。
法的・道徳的な領域から人手による注釈付き質問と自動生成質問の両方に対する実験結果から,提案手法の有効性が示唆された。
- 参考スコア(独自算出の注目度): 47.34022081652952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we aim to align large language models with the ever-changing,
complex, and diverse human values (e.g., social norms) across time and
locations. This presents a challenge to existing alignment techniques, such as
supervised fine-tuning, which internalize values within model parameters. To
overcome this, we propose an On-the-fly Preference Optimization (OPO) method,
which is a real-time alignment that works in a streaming way. It employs an
external memory to store established rules for alignment, which can constrain
LLMs' behaviors without further training, allowing for convenient updates and
customization of human values. We also introduce a scalable evaluation to
assess the proposed method more effectively. Experimental results on both
human-annotated and auto-generated questions from legal and moral domains
indicate the effectiveness of the proposed OPO method. Our code and data are
released at https://github.com/GAIR-NLP/OPO.
- Abstract(参考訳): 本稿では,大規模言語モデルと,時間と場所をまたがる変化し,複雑で多様な人間的価値観(社会的規範など)を整合させることを目的としている。
これは、モデルパラメータ内の値を内部化する教師付き微調整のような既存のアライメント技術への挑戦を示す。
そこで本研究では,ストリーミング方式のリアルタイムアライメントであるon-the-fly preference optimization(opo)法を提案する。
外部メモリを使用してアライメントのための確立したルールを格納し、さらなるトレーニングなしにLCMの動作を制限し、人間の値の便利な更新とカスタマイズを可能にする。
また,提案手法をより効果的に評価するためのスケーラブルな評価も導入する。
法領域と道徳領域の人間と自動生成質問に対する実験結果から,提案手法の有効性が示唆された。
私たちのコードとデータはhttps://github.com/GAIR-NLP/OPO.orgで公開されています。
関連論文リスト
- Entropy-Regularized Token-Level Policy Optimization for Large Language
Models [76.02428537504323]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
その結果,ETPO は CodeLlama-7B モデルで有効な性能向上を実現し,RLHF から受け継いだ変種 PPO ベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Towards Efficient and Exact Optimization of Language Model Alignment [97.41422112912574]
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
我々は,EXOがRLアルゴリズムと同じ方向に最適化されることを証明した。
さらに、現実的な人間の嗜好データに対する既存のアプローチよりも、提案手法の利点を実証する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences
without Tuning and Feedback [72.21755067005049]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - Aligning Large Language Models with Counterfactual DPO [1.8130068086063336]
本稿では,人的介入に頼らずにモデルスタイルを整列させる反事実的プロンプトの利用について検討する。
本研究では,この手法が望ましい行動を効果的に抑制し,望ましくない行動を緩和し,不適切な指示を無視するようモデルに促すことを実証する。
論文 参考訳(メタデータ) (2024-01-17T19:43:43Z) - ULMA: Unified Language Model Alignment with Human Demonstration and
Point-wise Preference [16.73260713938154]
典型的なアライメント手順は、教師付き微調整と選好学習からなる。
本稿では,ポイントワイズフィードバックを効果的に活用する新しい選好学習手法であるPoint-wise Direct Preference Optimizationを紹介する。
我々の研究は、教師付き微調整とポイントワイド選好学習の新たなつながりを明らかにし、統一言語モデルアライメント(英語版)に到達した。
論文 参考訳(メタデータ) (2023-12-05T07:52:12Z) - Nash Learning from Human Feedback [80.86423717860141]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - Adversarial Preference Optimization [30.937079544053482]
より効率的な人選好最適化を目指すために, 対人選好最適化(APO)フレームワークを提案する。
APOは補助性と無害性の観点から,ベースライン手法のアライメント性能をさらに向上させる。
論文 参考訳(メタデータ) (2023-11-14T10:10:31Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [75.36922009358676]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。