論文の概要: Inverse Constitutional AI: Compressing Preferences into Principles
- arxiv url: http://arxiv.org/abs/2406.06560v1
- Date: Sun, 2 Jun 2024 11:54:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-23 13:45:35.979043
- Title: Inverse Constitutional AI: Compressing Preferences into Principles
- Title(参考訳): 逆構成AI: 優先度を原則に圧縮する
- Authors: Arduin Findeis, Timo Kaufmann, Eyke Hüllermeier, Samuel Albanie, Robert Mullins,
- Abstract要約: Inverse Constitutional AI (ICAI) の問題に目を向ける。
ICAIでは、フィードバックと微調整AIモデルを提供するために一連の原則が使用される。
初期ICAIアルゴリズムを提案し,その構成を検証した。
- 参考スコア(独自算出の注目度): 37.28372419588119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feedback data plays an important role in fine-tuning and evaluating state-of-the-art AI models. Often pairwise text preferences are used: given two texts, human (or AI) annotators select the "better" one. Such feedback data is widely used to align models to human preferences (e.g., reinforcement learning from human feedback), or to rank models according to human preferences (e.g., Chatbot Arena). Despite its wide-spread use, prior work has demonstrated that human-annotated pairwise text preference data often exhibits unintended biases. For example, human annotators have been shown to prefer assertive over truthful texts in certain contexts. Models trained or evaluated on this data may implicitly encode these biases in a manner hard to identify. In this paper, we formulate the interpretation of existing pairwise text preference data as a compression task: the Inverse Constitutional AI (ICAI) problem. In constitutional AI, a set of principles (or constitution) is used to provide feedback and fine-tune AI models. The ICAI problem inverts this process: given a dataset of feedback, we aim to extract a constitution that best enables a large language model (LLM) to reconstruct the original annotations. We propose a corresponding initial ICAI algorithm and validate its generated constitutions quantitatively based on reconstructed annotations. Generated constitutions have many potential use-cases -- they may help identify undesirable biases, scale feedback to unseen data or assist with adapting LLMs to individual user preferences. We demonstrate our approach on a variety of datasets: (a) synthetic feedback datasets with known underlying principles; (b) the AlpacaEval dataset of cross-annotated human feedback; and (c) the crowdsourced Chatbot Arena data set. We release the code for our algorithm and experiments at https://github.com/rdnfn/icai .
- Abstract(参考訳): フィードバックデータは、最先端AIモデルの微調整と評価において重要な役割を果たす。
2つのテキストが与えられたら、人間(またはAI)アノテータが"better"を選択する。
このようなフィードバックデータは、モデルを人間の好み(例えば、人間のフィードバックからの強化学習)に合わせるために、あるいは人間の好み(例えば、Chatbot Arena)に応じてランク付けするために広く使用されている。
広範に使われているにもかかわらず、先行研究は、人間が注釈を付けたペアワイズテキストの嗜好データが意図しない偏見を示すことが多いことを実証している。
例えば、人間のアノテータは、特定の文脈における真偽のテキストよりも断定的を好むことが示されている。
このデータに基づいてトレーニングまたは評価されたモデルは、これらのバイアスを識別しにくい方法で暗黙的にエンコードする可能性がある。
本稿では,既存のテキスト嗜好データを圧縮タスクとして解釈する:逆構成型AI(ICAI)問題について述べる。
コンスティチューションAIでは、フィードバックと微調整AIモデルを提供するために、一連の原則(またはコンスティチューション)が使用される。
ICAI問題は、フィードバックのデータセットが与えられた場合、大言語モデル(LLM)が元のアノテーションを再構築できるように構成を抽出することを目的としている。
対応する初期ICAIアルゴリズムを提案し,その生成した構成を再構成アノテーションに基づいて定量的に検証する。
生成されたコンスティチューションには多くの潜在的なユースケースがあり、望ましくないバイアスを特定したり、見当たらないデータにフィードバックを拡大したり、個々のユーザの好みにLLMを適用するのに役立ちます。
さまざまなデータセットに対する私たちのアプローチを例示します。
(a) 既知の原理による合成フィードバックデータセット
b) クロスアノテートされた人間のフィードバックのAlpacaEvalデータセット及び
(c) クラウドソースされたChatbot Arenaデータセット。
アルゴリズムのコードと実験はhttps://github.com/rdnfn/icai で公開しています。
関連論文リスト
- Reward Modeling with Ordinal Feedback: Wisdom of the Crowd [9.034189257088762]
人間の好みから報酬モデル(RM)を学ぶことは、大きな言語モデルを調整する上で重要な要素である。
順序フィードバックの下でRMを学習するためのフレームワークを提案する。
我々は,Rademacher複雑性の低減の観点から,順序フィードバックの統計的利点を証明した。
論文 参考訳(メタデータ) (2024-11-19T20:17:04Z) - Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。
我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。
選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Efficient and Flexible Topic Modeling using Pretrained Embeddings and
Bag of Sentences [1.8592384822257952]
本稿では,新しいトピックモデリングと推論アルゴリズムを提案する。
我々は,生成過程モデルとクラスタリングを組み合わせることで,事前学習文の埋め込みを活用する。
The Tailor の評価は,本手法が比較的少ない計算要求で最先端の成果をもたらすことを示している。
論文 参考訳(メタデータ) (2023-02-06T20:13:11Z) - Reweighting Strategy based on Synthetic Data Identification for Sentence
Similarity [30.647497555295974]
機械で書かれた文章を識別する分類器を訓練し、機械で書かれた文章の言語的特徴が人間の文章と大きく異なることを観察する。
次に、分類器からの蒸留情報を用いて、信頼性のある文埋め込みモデルを訓練する。
合成データに基づいてトレーニングしたモデルでは,既存のベースラインよりも良く一般化し,性能が向上する。
論文 参考訳(メタデータ) (2022-08-29T05:42:22Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。