論文の概要: Collective Constitutional AI: Aligning a Language Model with Public Input
- arxiv url: http://arxiv.org/abs/2406.07814v1
- Date: Wed, 12 Jun 2024 02:20:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 20:36:36.918133
- Title: Collective Constitutional AI: Aligning a Language Model with Public Input
- Title(参考訳): 集団構成型AI: 公開入力による言語モデルの調整
- Authors: Saffron Huang, Divya Siddarth, Liane Lovitt, Thomas I. Liao, Esin Durmus, Alex Tamkin, Deep Ganguli,
- Abstract要約: 言語モデル(LM)開発者は、LMの振る舞いの唯一の決定者であってはならないというコンセンサスが高まっている。
我々は、公共のインプットをLMにソーシングし、統合するための多段階プロセスであるCCAI(Collective Constitutional AI)を提示する。
我々は、この手法の現実的な実践性を、我々の知識に則って、公開入力を集約した最初のLM微調整を作成することによって実証する。
- 参考スコア(独自算出の注目度): 20.95333081841239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is growing consensus that language model (LM) developers should not be the sole deciders of LM behavior, creating a need for methods that enable the broader public to collectively shape the behavior of LM systems that affect them. To address this need, we present Collective Constitutional AI (CCAI): a multi-stage process for sourcing and integrating public input into LMs-from identifying a target population to sourcing principles to training and evaluating a model. We demonstrate the real-world practicality of this approach by creating what is, to our knowledge, the first LM fine-tuned with collectively sourced public input and evaluating this model against a baseline model trained with established principles from a LM developer. Our quantitative evaluations demonstrate several benefits of our approach: the CCAI-trained model shows lower bias across nine social dimensions compared to the baseline model, while maintaining equivalent performance on language, math, and helpful-harmless evaluations. Qualitative comparisons of the models suggest that the models differ on the basis of their respective constitutions, e.g., when prompted with contentious topics, the CCAI-trained model tends to generate responses that reframe the matter positively instead of a refusal. These results demonstrate a promising, tractable pathway toward publicly informed development of language models.
- Abstract(参考訳): 言語モデル(LM)開発者は、LMの振る舞いの唯一の決定者であってはならないというコンセンサスが高まり、より広範な人々がそれらに影響を与えるLMシステムの振舞いを集合的に形成できる方法の必要性が生まれている。
このニーズに対処するために、私たちは、ターゲット人口の特定からモデルのトレーニングと評価への原則の導出に至るまで、公共のインプットをLMにソーシングし統合する多段階プロセスであるCCAI(Collective Constitutional AI)を紹介します。
我々は,この手法の現実的な実践性を実演し,LM開発者から確立された原則で訓練されたベースラインモデルに対して,公開入力をまとめて調整した最初のLMを作成した。
CCAI学習モデルでは,ベースラインモデルと比較して9次元の偏りが低く,言語,数学,無用な評価では同等の性能を維持している。
モデルの質的な比較は、モデルがそれぞれの構成に基づいて異なることを示唆している。例えば、論争的なトピックによって刺激された場合、CCAI訓練されたモデルは、拒絶ではなく、正の反応を生成する傾向にある。
これらの結果は,公的な言語モデル開発に向けた,有望かつ有望な道筋を示すものである。
関連論文リスト
- Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Establishing Trustworthiness: Rethinking Tasks and Model Evaluation [36.329415036660535]
我々は、NLPにおけるタスクとモデル評価を構成するものを再考する時が来たと論じる。
本稿では,モデルの機能的能力の起源を理解するために,既存のコンパートナライズドアプローチについてレビューする。
論文 参考訳(メタデータ) (2023-10-09T06:32:10Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Survey of Social Bias in Vision-Language Models [65.44579542312489]
調査の目的は、NLP、CV、VLをまたいだ事前学習モデルにおける社会バイアス研究の類似点と相違点について、研究者に高いレベルの洞察を提供することである。
ここで提示された発見とレコメンデーションはMLコミュニティの利益となり、公平でバイアスのないAIモデルの開発を促進する。
論文 参考訳(メタデータ) (2023-09-24T15:34:56Z) - Rethinking Model Evaluation as Narrowing the Socio-Technical Gap [34.08410116336628]
モデル評価の実践は、この均質化によってもたらされる課題や責任に対処するために、重要なタスクを負わなければならない、と我々は主張する。
我々は,現実世界の社会要求に基づく評価手法の開発をコミュニティに促す。
論文 参考訳(メタデータ) (2023-06-01T00:01:43Z) - Shattering the Agent-Environment Interface for Fine-Tuning Inclusive
Language Models [24.107358120517336]
本研究では、事前学習された言語モデルが、それ自体がポリシー、報酬関数、遷移関数である、という新しい視点を採用する。
即ち、報酬学習と言語モデルの微調整は、さらに下流のポリシー最適化を必要とせずに、共同で直接行うことができる。
論文 参考訳(メタデータ) (2023-05-19T06:21:15Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Learning to Compare for Better Training and Evaluation of Open Domain
Natural Language Generation Models [23.62054164511058]
そこで本研究では,文のペアを細調整して比較することで,自然言語生成モデルを評価することを提案する。
完全に自己管理された方法でトレーニングできる一方で、人間の好みのアノテーションを少しだけ含んだモデルをさらに微調整することが可能です。
論文 参考訳(メタデータ) (2020-02-12T15:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。