論文の概要: Beyond Preferences: Learning Alignment Principles Grounded in Human Reasons and Values
- arxiv url: http://arxiv.org/abs/2601.18760v1
- Date: Mon, 26 Jan 2026 18:27:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:09.011788
- Title: Beyond Preferences: Learning Alignment Principles Grounded in Human Reasons and Values
- Title(参考訳): 優先順位を超えて: 人間の考えと価値に根ざしたアライメントの原則を学ぶ
- Authors: Henry Bell, Lara Neubauer da Costa Schertel, Bochu Ding, Brandon Fain,
- Abstract要約: グラウンドド・コンスティチューショナル・AI(GCAI)は、原則のコンスティチューションを生成する統一的なフレームワークである。
本稿では,GCAI が生成する構成が,AI の行動管理において,ICAI を通じて生成した構成よりも人間の方が好まれることを示す。
- 参考スコア(独自算出の注目度): 0.2511917198008257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A crucial consideration when developing and deploying Large Language Models (LLMs) is the human values to which these models are aligned. In the constitutional framework of alignment models are aligned to a set of principles (the constitution) specified in natural language. However, it is unclear how to fairly determine this constitution with widespread stakeholder input. In this work we propose Grounded Constitutional AI (GCAI), a unified framework for generating constitutions of principles that are representative of both users' general expectations toward AI (general principles) and their interaction-time preferences (contextual principles). We extend the Inverse Constitutional AI (ICAI) approach to generate contextual principles from human preference annotation data by leveraging human-provided \textit{reasons} for their preferences. We supplement these contextual principles with general principles surfaced from user statements of \textit{values} regarding AI. We show that a constitution generated by GCAI is preferred by humans over one generated through ICAI both personally, and for widespread use in governing AI behavior. Additionally participants consider the GCAI constitution to be more morally grounded, coherent, and pluralistic.
- Abstract(参考訳): LLM(Large Language Models)の開発とデプロイにおいて重要な考慮事項は、これらのモデルが整列する人間の価値である。
アライメントモデルの構成的枠組みは、自然言語で定義された原則(憲法)に整合している。
しかし、この憲法を広い利害関係者の入力でどのように正確に決定するかは明らかでない。
本研究は,AIに対するユーザの一般的な期待(一般原則)とインタラクション時優先(コンテキスト原則)の両方を表す,原則の構成を生成する統一的なフレームワークであるGrounded Constitutional AI(GCAI)を提案する。
Inverse Constitutional AI (ICAI) アプローチを拡張して、人間の好みのアノテーションデータからコンテキスト原則を生成する。
我々は、これらの文脈原理を、AIに関する‘textit{values}’のユーザステートメントから表される一般的な原則で補う。
本稿では,GCAI が生成する構成が,AI の行動管理において,ICAI を通じて生成した構成よりも人間の方が好まれることを示す。
さらに参加者は、GCAI憲法はより道徳的に根拠があり、一貫性があり、多元的だと考えている。
関連論文リスト
- Resource Rational Contractualism Should Guide AI Alignment [69.07915246220985]
契約主義的アライメントは、多様な利害関係者が支持する合意の中で決定を下すことを提案する。
我々は、AIシステムが合理的な当事者が形成する合意を近似する枠組みであるリソース・リアリズムを提案する。
RRC対応エージェントは、効率的に機能するだけでなく、変化する人間の社会世界への適応と解釈を動的に行うことができる。
論文 参考訳(メタデータ) (2025-06-20T18:57:13Z) - C3AI: Crafting and Evaluating Constitutions for Constitutional AI [4.393788620560099]
我々はC3AIフレームワークを導入し、微調整の前に効果的な構成を形成するための原則の選択と構成という2つの重要な機能を提供します。
AIと心理学から原則を分析することで、ポジティブなフレーム化された行動に基づく原則が、ネガティブなフレーム化された原則や特性に基づく原則よりも人間の好みとより密接に一致していることがわかりました。
微調整されたCAIモデルは、負の枠付き原理ではうまく機能したが、人間のアライメント結果とは対照的に、正の枠付き原理では苦労した。
論文 参考訳(メタデータ) (2025-02-21T10:26:42Z) - SPRI: Aligning Large Language Models with Context-Situated Principles [53.07731637246485]
Situated-PRInciples (SPRI) は、各入力クエリに対して、リアルタイムでガイド原則を自動生成し、各レスポンスを整合させるように設計されている。
我々は,SPRIを3つのタスクで評価し,SPRIが複雑なドメイン固有のタスクの原理を導出できることを示す。
論文 参考訳(メタデータ) (2025-02-05T17:32:29Z) - Decoding Human Preferences in Alignment: An Improved Approach to Inverse Constitutional AI [0.0]
大規模言語モデル(LLM)を整合させるルールベースのフレームワークを開発する。
Inverse Constitutional AI (ICAI)アルゴリズムを改良し、好みのデータセットから構成を抽出する。
我々の結果は、これらの原則がより透明で適応可能なアライメント手法を促進する可能性を強調します。
論文 参考訳(メタデータ) (2025-01-28T17:59:56Z) - The Fundamental Rights Impact Assessment (FRIA) in the AI Act: Roots, legal obligations and key elements for a model template [55.2480439325792]
基本権利影響評価(FRIA)の理論的・方法論的検討における既存のギャップを埋めることを目的とする。
この記事では、FRIAのモデルテンプレートの主要なビルディングブロックについて概説する。
これは、AIが人権と完全に整合していることを保証するために、他の国家および国際規制イニシアチブの青写真として機能する。
論文 参考訳(メタデータ) (2024-11-07T11:55:55Z) - Beyond Preferences in AI Alignment [15.878773061188516]
我々は、AIアライメントに対する優先主義的アプローチを特徴づけ、挑戦する。
人間の価値観の濃厚なセマンティックな内容が、嗜好がどのように捉えられていないかを示す。
我々は、AIシステムは、彼らの社会的役割に適した規範的基準に適合すべきであると主張する。
論文 参考訳(メタデータ) (2024-08-30T03:14:20Z) - Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - Specific versus General Principles for Constitutional AI [27.08490948333949]
コンスティチューショナルAIは、人間のフィードバックを、書かれた原則のリストにのみ条件付きフィードバックで置き換える、代替手段を提供する。
このアプローチは、このような振る舞いの表現を効果的に防ぐことができる。
したがって、一般的な原則は、潜在的に有害な行動をターゲットにした長い憲法のリストの必要性を部分的に回避することができる。
論文 参考訳(メタデータ) (2023-10-20T20:12:45Z) - Natural Language Decompositions of Implicit Content Enable Better Text Representations [52.992875653864076]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。