論文の概要: Unlocking Transparent Alignment Through Enhanced Inverse Constitutional AI for Principle Extraction
- arxiv url: http://arxiv.org/abs/2501.17112v1
- Date: Tue, 28 Jan 2025 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:40:54.396760
- Title: Unlocking Transparent Alignment Through Enhanced Inverse Constitutional AI for Principle Extraction
- Title(参考訳): 原理抽出のための逆構成AIによる透明アライメントのアンロック
- Authors: Carl-Leander Henneking, Claas Beger,
- Abstract要約: コンスティチューショナルAI(CAI)は、モデル出力を導くための明示的なルールベースのフレームワークを提供する。
Inverse Constitutional AI (ICAI)アルゴリズムを改良し、好みのデータセットから構成を抽出する。
我々の結果は、これらの原則がより透明で適応可能なアライメント手法を促進する可能性を強調します。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Traditional methods for aligning Large Language Models (LLMs), such as Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO), rely on implicit principles, limiting interpretability. Constitutional AI (CAI) offers an explicit, rule-based framework for guiding model outputs. Building on this, we refine the Inverse Constitutional AI (ICAI) algorithm, which extracts constitutions from preference datasets. By improving principle generation, clustering, and embedding processes, our approach enhances the accuracy and generalizability of extracted principles across synthetic and real-world datasets. While in-context alignment yields modest improvements, our results highlight the potential of these principles to foster more transparent and adaptable alignment methods, offering a promising direction for future advancements beyond traditional fine-tuning.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) や Direct Preference Optimization (DPO) のような、Large Language Models (LLM) を整合させる従来の手法は、暗黙の原則に依存し、解釈可能性を制限する。
コンスティチューショナルAI(CAI)は、モデル出力を導くための明示的なルールベースのフレームワークを提供する。
これに基づいて、好みデータセットから構成を抽出する逆構成AI(ICAI)アルゴリズムを洗練する。
原理生成,クラスタリング,埋め込みプロセスの改善により,本手法は,合成および実世界のデータセット間で抽出された原理の精度と一般化性を向上させる。
文脈内アライメントは微妙な改善をもたらすが、我々の結果は、これらの原則がより透明で適応可能なアライメント手法を育む可能性を強調し、従来の微調整を超えて将来の進歩に期待できる方向を提供する。
関連論文リスト
- Novel Saliency Analysis for the Forward Forward Algorithm [0.0]
ニューラルネットワークトレーニングにフォワードフォワードアルゴリズムを導入する。
この方法は、2つのフォワードパスを実際のデータで実行し、正の強化を促進する。
従来のサリエンシ手法に固有の制約を克服するため,フォワードフォワードフレームワークに特化してベスポークサリエンシアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-09-18T17:21:59Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - A Parametric Class of Approximate Gradient Updates for Policy
Optimization [47.69337420768319]
我々は、勾配形式とスケーリング関数の限定的な選択の観点から、基礎となる更新を再表現する統一的な視点を開発する。
我々は、収束速度と最終的な結果品質の両方の利点をもたらすことができる方法で、既存のアルゴリズムを一般化する、新しいが、動機のよい更新を得る。
論文 参考訳(メタデータ) (2022-06-17T01:28:38Z) - Higher-Order Generalization Bounds: Learning Deep Probabilistic Programs
via PAC-Bayes Objectives [0.0]
DPP法を用いてPAC-Bayes一般化境界をプログラムとして表現するためのフレームワークを提供する。
特に, DPP の手法は DPP 表現の構成性に基づく一般化境界の導出に有効であることを示す。
そこで本研究では,高次確率的プログラムに対する原則的学習目標について紹介する。
論文 参考訳(メタデータ) (2022-03-30T01:14:56Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Towards Principled Disentanglement for Domain Generalization [90.9891372499545]
機械学習モデルの根本的な課題は、アウト・オブ・ディストリビューション(OOD)データへの一般化である。
私たちはまず、DEC(Disentanglement-Constrained Domain Generalization)と呼ばれる制約付き最適化としてOOD一般化問題を定式化する。
この変換に基づいて、結合表現の不絡合と領域一般化のための原始双対アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-27T07:36:32Z) - InteL-VAEs: Adding Inductive Biases to Variational Auto-Encoders via
Intermediary Latents [60.785317191131284]
本稿では,潜伏変数の中間集合を用いて,制御可能なバイアスでVAEを学習するための簡易かつ効果的な手法を提案する。
特に、学習した表現に対して、スパーシリティやクラスタリングといった望ましいプロパティを課すことができます。
これにより、InteL-VAEはより優れた生成モデルと表現の両方を学ぶことができる。
論文 参考訳(メタデータ) (2021-06-25T16:34:05Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。