Fugu-MT 論文翻訳(概要): SoFA: Shielded On-the-fly Alignment via Priority Rule Following

論文の概要: SoFA: Shielded On-the-fly Alignment via Priority Rule Following

arxiv url: http://arxiv.org/abs/2402.17358v1
Date: Tue, 27 Feb 2024 09:52:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 17:05:12.652737
Title: SoFA: Shielded On-the-fly Alignment via Priority Rule Following
Title（参考訳）: SoFA: 優先ルールによるオンザフライアライメント
Authors: Xinyu Lu, Bowen Yu, Yaojie Lu, Hongyu Lin, Haiyang Yu, Le Sun, Xianpei Han, Yongbin Li
Abstract要約: 本稿では,各ダイアログにおけるルールを主制御機構として定義する,新たなアライメントパラダイムである優先ルールを提案する。そこで本研究では,厳密な規則統合と固着性を確保するために,シミュレーションから優先信号に従う半自動蒸留手法であるプライオリティディスティルを提案する。
参考スコア（独自算出の注目度）: 90.32819418613407
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The alignment problem in Large Language Models (LLMs) involves adapting them to the broad spectrum of human values. This requirement challenges existing alignment methods due to diversity of preferences and regulatory standards. This paper introduces a novel alignment paradigm, priority rule following, which defines rules as the primary control mechanism in each dialog, prioritizing them over user instructions. Our preliminary analysis reveals that even the advanced LLMs, such as GPT-4, exhibit shortcomings in understanding and prioritizing the rules. Therefore, we present PriorityDistill, a semi-automated approach for distilling priority following signals from LLM simulations to ensure robust rule integration and adherence. Our experiments show that this method not only effectively minimizes misalignments utilizing only one general rule but also adapts smoothly to various unseen rules, ensuring they are shielded from hijacking and that the model responds appropriately.
Abstract（参考訳）: 大規模言語モデル(llm)におけるアライメント問題は、それらを幅広い人間の価値観に適応させることである。この要件は、好みや規制基準の多様性によって既存のアライメント手法に挑戦する。本稿では,各ダイアログにおけるルールを主制御機構として定義し,ユーザの指示を優先する新たなアライメントパラダイムである優先ルールを提案する。予備分析の結果, GPT-4 のような先進的な LLM でさえ,ルールの理解と優先順位付けに欠点があることが判明した。そこで本研究では,llmシミュレーションからの信号に追従した優先度を蒸留する半自動法であるprioritydistillを提案する。実験により,本手法は1つの一般規則のみを用いた誤調整を効果的に最小化するだけでなく,様々な未知規則に順応し,ハイジャックから保護され,モデルが適切に応答することを示す。

関連論文リスト

Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
正規球上の線形最小化オラクル(LMO)を利用する最適化手法について検討する。この問題の幾何学に適応するためにLMOを用いた新しいアルゴリズム群を提案し, 意外なことに, 制約のない問題に適用可能であることを示す。
論文参考訳（メタデータ） (2025-02-11T13:10:34Z)
Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文参考訳（メタデータ） (2024-12-20T21:00:11Z)
Neuro-Symbolic Rule Lists [31.085257698392354]
NeuRulesは、識別、ルール学習、ルール順序を単一のフレームワークに統合するエンドツーエンドのトレーニング可能なモデルである。我々は、NeuRulesがニューラルシンボリックな手法を一貫して上回り、幅広いデータセットにわたって、シンプルで複雑なルールとそれらの順序を効果的に学習していることを示す。
論文参考訳（メタデータ） (2024-11-10T11:10:36Z)
A Scalable Matrix Visualization for Understanding Tree Ensemble Classifiers [20.416696003269674]
本稿では,数万のルールを含む木アンサンブル分類法を説明するために,拡張性のある視覚解析手法を提案する。我々は,これらのルールを階層レベルで優先順位付けするための,異常バイアスモデル削減手法を開発した。本手法は,共通ルールと異常ルールの両方を深く理解し,包括性を犠牲にすることなく解釈性を向上させる。
論文参考訳（メタデータ） (2024-09-05T01:48:11Z)
ABC Align: Large Language Model Alignment for Safety & Accuracy [0.0]
大規模言語モデル(LLM)のための新しいアライメント手法ABC Alignを提案する。合成データ生成、選好最適化、ポストトレーニングモデル量子化における最近のブレークスルーの上に構築された一連のデータとメソッドを組み合わせる。我々の統一的なアプローチは、標準ベンチマークに対して測定されたように、バイアスを軽減し、推論能力を保ちながら精度を向上させる。
論文参考訳（メタデータ） (2024-08-01T06:06:25Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文参考訳（メタデータ） (2024-02-29T12:12:30Z)
Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文参考訳（メタデータ） (2024-01-21T10:46:23Z)
SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文参考訳（メタデータ） (2023-10-09T17:56:53Z)
On Regularization and Inference with Label Constraints [62.60903248392479]
機械学習パイプラインにおけるラベル制約を符号化するための2つの戦略、制約付き正規化、制約付き推論を比較した。正規化については、制約に不整合なモデルを前置することで一般化ギャップを狭めることを示す。制約付き推論では、モデルの違反を訂正することで人口リスクを低減し、それによってその違反を有利にすることを示す。
論文参考訳（メタデータ） (2023-07-08T03:39:22Z)
Distilling Task-specific Logical Rules from Large Pre-trained Models [24.66436804853525]
本研究では,大規模な事前学習モデルからタスク固有の論理規則を抽出する新しい枠組みを開発する。具体的には、初期シードルールを生成するための知識エキスパートとして、最近のプロンプトベースの言語モデルを借りる。 3つのパブリックなエンティティタグ付けベンチマークの実験は、提案フレームワークの有効性を実証している。
論文参考訳（メタデータ） (2022-10-06T09:12:18Z)
A Distributional Approach to Controlled Text Generation [3.279201607581627]
予め訓練された言語モデル(LM)から制御されたテキスト生成に対処するための分布的アプローチを提案する。このビューでは、単一の形式的なフレームワークで、ターゲット lm 上で "pointwise" と "distributional" の制約を定義することができる。次に,我々のアプローチのユニークな特徴である分布制約に関する実験を行い,言語モデルにおけるバイアス問題に対する対策としての可能性を示す。
論文参考訳（メタデータ） (2020-12-21T19:02:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。