論文の概要: SoFA: Shielded On-the-fly Alignment via Priority Rule Following
- arxiv url: http://arxiv.org/abs/2402.17358v1
- Date: Tue, 27 Feb 2024 09:52:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 17:05:12.652737
- Title: SoFA: Shielded On-the-fly Alignment via Priority Rule Following
- Title(参考訳): SoFA: 優先ルールによるオンザフライアライメント
- Authors: Xinyu Lu, Bowen Yu, Yaojie Lu, Hongyu Lin, Haiyang Yu, Le Sun, Xianpei
Han, Yongbin Li
- Abstract要約: 本稿では,各ダイアログにおけるルールを主制御機構として定義する,新たなアライメントパラダイムである優先ルールを提案する。
そこで本研究では,厳密な規則統合と固着性を確保するために,シミュレーションから優先信号に従う半自動蒸留手法であるプライオリティディスティルを提案する。
- 参考スコア(独自算出の注目度): 90.32819418613407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The alignment problem in Large Language Models (LLMs) involves adapting them
to the broad spectrum of human values. This requirement challenges existing
alignment methods due to diversity of preferences and regulatory standards.
This paper introduces a novel alignment paradigm, priority rule following,
which defines rules as the primary control mechanism in each dialog,
prioritizing them over user instructions. Our preliminary analysis reveals that
even the advanced LLMs, such as GPT-4, exhibit shortcomings in understanding
and prioritizing the rules. Therefore, we present PriorityDistill, a
semi-automated approach for distilling priority following signals from LLM
simulations to ensure robust rule integration and adherence. Our experiments
show that this method not only effectively minimizes misalignments utilizing
only one general rule but also adapts smoothly to various unseen rules,
ensuring they are shielded from hijacking and that the model responds
appropriately.
- Abstract(参考訳): 大規模言語モデル(llm)におけるアライメント問題は、それらを幅広い人間の価値観に適応させることである。
この要件は、好みや規制基準の多様性によって既存のアライメント手法に挑戦する。
本稿では,各ダイアログにおけるルールを主制御機構として定義し,ユーザの指示を優先する新たなアライメントパラダイムである優先ルールを提案する。
予備分析の結果, GPT-4 のような先進的な LLM でさえ,ルールの理解と優先順位付けに欠点があることが判明した。
そこで本研究では,llmシミュレーションからの信号に追従した優先度を蒸留する半自動法であるprioritydistillを提案する。
実験により,本手法は1つの一般規則のみを用いた誤調整を効果的に最小化するだけでなく,様々な未知規則に順応し,ハイジャックから保護され,モデルが適切に応答することを示す。
関連論文リスト
- Controllable Preference Optimization: Toward Controllable
Multi-Objective Alignment [107.63756895544842]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences
without Tuning and Feedback [72.21755067005049]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - On Finding Bi-objective Pareto-optimal Fraud Prevention Rule Sets for
Fintech Applications [1.1222512145273202]
本稿では,初期ルールプールから2目的空間(精度やリコールなど)の高品質なルールサブセットを見つけることを目的とする。
我々はPORSと呼ばれる詐欺ベースのフレームワークを提案し、PORSのコアが最前線におけるソリューション選択の問題であることを確認した。
我々は、初期ルールセットの多様性を促進するために、SpectralRulesと呼ばれるシーケンシャルカバーアルゴリズムの新たな変種を導入する。
論文 参考訳(メタデータ) (2023-11-02T03:18:40Z) - Towards Practical Non-Adversarial Distribution Alignment via Variational
Bounds [20.970341602452596]
分布アライメントは、フェアネスとロバストネスの応用で不変表現を学ぶのに使うことができる。
ほとんどの先行研究は対向アライメント法を頼っているが、結果として生じるミニマックス問題は不安定で最適化が難しい。
本稿では,任意のモデルパイプラインに適用可能な非逆VAEベースのアライメント手法を提案する。
論文 参考訳(メタデータ) (2023-10-30T16:05:46Z) - SALMON: Self-Alignment with Principle-Following Reward Models [84.31474052176343]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちのアプローチの中心は、原則に従う報酬モデルです。
提案手法をLLaMA-2-70bベース言語モデルに適用し,Dromedary-2というAIアシスタントを開発した。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - On Regularization and Inference with Label Constraints [62.60903248392479]
機械学習パイプラインにおけるラベル制約を符号化するための2つの戦略、制約付き正規化、制約付き推論を比較した。
正規化については、制約に不整合なモデルを前置することで一般化ギャップを狭めることを示す。
制約付き推論では、モデルの違反を訂正することで人口リスクを低減し、それによってその違反を有利にすることを示す。
論文 参考訳(メタデータ) (2023-07-08T03:39:22Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - Distilling Task-specific Logical Rules from Large Pre-trained Models [24.66436804853525]
本研究では,大規模な事前学習モデルからタスク固有の論理規則を抽出する新しい枠組みを開発する。
具体的には、初期シードルールを生成するための知識エキスパートとして、最近のプロンプトベースの言語モデルを借りる。
3つのパブリックなエンティティタグ付けベンチマークの実験は、提案フレームワークの有効性を実証している。
論文 参考訳(メタデータ) (2022-10-06T09:12:18Z) - A Distributional Approach to Controlled Text Generation [3.279201607581627]
予め訓練された言語モデル(LM)から制御されたテキスト生成に対処するための分布的アプローチを提案する。
このビューでは、単一の形式的なフレームワークで、ターゲット lm 上で "pointwise" と "distributional" の制約を定義することができる。
次に,我々のアプローチのユニークな特徴である分布制約に関する実験を行い,言語モデルにおけるバイアス問題に対する対策としての可能性を示す。
論文 参考訳(メタデータ) (2020-12-21T19:02:41Z) - Diverse Rule Sets [20.170305081348328]
ルールベースのシステムは、直感的なif-then表現のためにルネッサンスを経験しています。
本稿では,ルール間の重なり合いを最適化することで,多様なルールセットを推定する新しい手法を提案する。
次に、高い差別性を持ち、重複が少ない規則をサンプリングする効率的なランダム化アルゴリズムを考案する。
論文 参考訳(メタデータ) (2020-06-17T14:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。