論文の概要: Chain of Alignment: Integrating Public Will with Expert Intelligence for Language Model Alignment
- arxiv url: http://arxiv.org/abs/2411.10534v1
- Date: Fri, 15 Nov 2024 19:10:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:35:58.579511
- Title: Chain of Alignment: Integrating Public Will with Expert Intelligence for Language Model Alignment
- Title(参考訳): Chain of Alignment: 言語モデルアライメントのためのエキスパートインテリジェンスと公開意志の統合
- Authors: Andrew Konya, Aviv Ovadya, Kevin Feng, Quan Ze Chen, Lisa Schirch, Colin Irwin, Amy X. Zhang,
- Abstract要約: 本研究では,公的な意志と言語モデル(LM)の振舞いのアライメントを測定する手法を提案する。
私たちのアライメントの連鎖はルールベース報酬(RBR)を生み出します。
メンタルヘルスに関連する3つの分野のLMプロンプトにまたがって適用することで、我々のアプローチを検証する。
- 参考スコア(独自算出の注目度): 6.573844108993998
- License:
- Abstract: We introduce a method to measure the alignment between public will and language model (LM) behavior that can be applied to fine-tuning, online oversight, and pre-release safety checks. Our `chain of alignment' (CoA) approach produces a rule based reward (RBR) by creating model behavior $\textit{rules}$ aligned to normative $\textit{objectives}$ aligned to $\textit{public will}$. This factoring enables a nonexpert public to directly specify their will through the normative objectives, while expert intelligence is used to figure out rules entailing model behavior that best achieves those objectives. We validate our approach by applying it across three different domains of LM prompts related to mental health. We demonstrate a public input process built on collective dialogues and bridging-based ranking that reliably produces normative objectives supported by at least $96\% \pm 2\%$ of the US public. We then show that rules developed by mental health experts to achieve those objectives enable a RBR that evaluates an LM response's alignment with the objectives similarly to human experts (Pearson's $r=0.841$, $AUC=0.964$). By measuring alignment with objectives that have near unanimous public support, these CoA RBRs provide an approximate measure of alignment between LM behavior and public will.
- Abstract(参考訳): 我々は、細調整、オンライン監視、プレリリース安全チェックに適用可能な、公的な意志と言語モデル(LM)の振舞いのアライメントを測定する方法を提案する。
私たちの'アライメントのチェーン' (CoA) アプローチは、標準的 $\textit{objectives}$ および $\textit{public will}$ を作成することによって、ルールベースの報酬(RBR)を生成します。
このファクタリングは、専門家でない一般人が規範的な目的を通じて自分の意志を直接特定することを可能にする一方、専門家の知性は、それらの目的を達成するのに最適なモデル行動を含むルールを理解するのに使用される。
メンタルヘルスに関連する3つの分野のLMプロンプトにまたがって適用することで、我々のアプローチを検証する。
我々は、アメリカ国民の少なくとも9,6\% \pm 2\%$で支持された規範的目標を確実に生成する、集団対話とブリッジングに基づくランキングに基づいて構築されたパブリックな入力過程を実証する。
次に、精神保健の専門家がこれらの目的を達成するために開発したルールは、人間の専門家と同様の目的(ピアソンの$r=0.841$, $AUC=0.964$)とLM応答の整合性を評価するRBRを可能にすることを示した。
これらのCoA RBRは、ほぼ全会一致の公的な支持を有する目標とのアライメントを測定することにより、LMの挙動と公的な意志とのアライメントを近似的に測定する。
関連論文リスト
- Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Towards Robust Model-Based Reinforcement Learning Against Adversarial Corruption [60.958746600254884]
本研究は、モデルベース強化学習(RL)における敵対的腐敗の課題に取り組む。
本稿では,MLE に対する不確実性重みとして全変量 (TV) に基づく情報比を利用する,汚損楽観的 MLE (CR-OMLE) アルゴリズムを提案する。
我々は、重み付け手法をオフライン設定にまで拡張し、汚損性悲観的MLE (CR-PMLE) というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T07:27:30Z) - Align on the Fly: Adapting Chatbot Behavior to Established Norms [47.34022081652952]
本稿では,リアルタイムアライメントであるオン・ザ・フライ・パラメータ最適化(OPO)手法を提案する。
法的・道徳的な領域から人手による注釈付き質問と自動生成質問の両方に対する実験結果から,提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2023-12-26T06:51:09Z) - Value FULCRA: Mapping Large Language Models to the Multidimensional
Spectrum of Basic Human Values [47.779186412943076]
本稿では,新しい基本値アライメントパラダイムと,基本値次元にまたがる値空間を提案する。
人文科学における人文科学と社会科学の基本的価値観に触発され、この研究は、新しい基本的価値アライメントパラダイムと、基本的価値次元にまたがる価値空間を提案する。
今後の研究を促進するために、代表的シュワルツの基本値理論を例として応用し、5k(LLM出力、値ベクトル)ペアからなるデータセットであるFULCRAを構築する。
論文 参考訳(メタデータ) (2023-11-15T10:29:28Z) - Can LLMs Follow Simple Rules? [28.73820874333199]
ルール追従言語評価シナリオ(ルール追従言語評価シナリオ、RuLES)は、大規模言語モデルにおけるルール追従能力を測定するためのフレームワークである。
RuLESは14の単純なテキストシナリオで構成され、そこではモデルがユーザと対話しながら様々なルールに従うように指示される。
現在のほとんどのモデルは、単純なテストケースであっても、シナリオルールに従うのに苦労しています。
論文 参考訳(メタデータ) (2023-11-06T08:50:29Z) - Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards
and Ethical Behavior in the MACHIAVELLI Benchmark [61.43264961005614]
我々は、50万以上のリッチで多様なシナリオを含む134個のChoose-Your-Own-Adventureゲームのベンチマークを開発する。
我々は、エージェントの傾向をパワー・シーキングと評価し、不使用を生じさせ、倫理的違反を犯す。
以上の結果から,エージェントは有能かつ道徳的に行動できることが示唆された。
論文 参考訳(メタデータ) (2023-04-06T17:59:03Z) - Constrained Policy Optimization for Controlled Self-Learning in
Conversational AI Systems [18.546197100318693]
ユーザ定義制約により、個々のドメインに対するきめ細かい探索ターゲットをサポートするスケーラブルなフレームワークを導入する。
この問題に対処するために,スケーラブルで実用的なメタ段階学習手法を提案する。
我々は、現実的な制約ベンチマークのセット上で、現実世界の会話型AIのデータを使用して広範な実験を行う。
論文 参考訳(メタデータ) (2022-09-17T23:44:13Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。