論文の概要: Values in the Wild: Discovering and Analyzing Values in Real-World Language Model Interactions
- arxiv url: http://arxiv.org/abs/2504.15236v1
- Date: Mon, 21 Apr 2025 17:13:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 15:39:00.334536
- Title: Values in the Wild: Discovering and Analyzing Values in Real-World Language Model Interactions
- Title(参考訳): 野生における価値: 実世界の言語モデル相互作用における価値の発見と分析
- Authors: Saffron Huang, Esin Durmus, Miles McCain, Kunal Handa, Alex Tamkin, Jerry Hong, Michael Stern, Arushi Somani, Xiuruo Zhang, Deep Ganguli,
- Abstract要約: 我々は、経験的に3,307のAI値を発見・分類し、それらがどのように異なるかを研究する。
私たちの研究は、AIシステムにおける価値のより基礎的な評価と設計のための基盤を作りました。
- 参考スコア(独自算出の注目度): 16.952352685459932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI assistants can impart value judgments that shape people's decisions and worldviews, yet little is known empirically about what values these systems rely on in practice. To address this, we develop a bottom-up, privacy-preserving method to extract the values (normative considerations stated or demonstrated in model responses) that Claude 3 and 3.5 models exhibit in hundreds of thousands of real-world interactions. We empirically discover and taxonomize 3,307 AI values and study how they vary by context. We find that Claude expresses many practical and epistemic values, and typically supports prosocial human values while resisting values like "moral nihilism". While some values appear consistently across contexts (e.g. "transparency"), many are more specialized and context-dependent, reflecting the diversity of human interlocutors and their varied contexts. For example, "harm prevention" emerges when Claude resists users, "historical accuracy" when responding to queries about controversial events, "healthy boundaries" when asked for relationship advice, and "human agency" in technology ethics discussions. By providing the first large-scale empirical mapping of AI values in deployment, our work creates a foundation for more grounded evaluation and design of values in AI systems.
- Abstract(参考訳): AIアシスタントは、人々の決定や世界観を形成する価値判断を付与することができるが、これらのシステムが実際にどの価値に依存しているかを実証的に知ることはほとんどない。
そこで本研究では,Claude 3 と 3.5 モデルが実世界の数十万のインタラクションで示す値(モデル応答に記述された,あるいは実証された)を抽出するボトムアップ型プライバシ保護手法を開発した。
我々は、経験的に3,307のAI値を発見し、分類し、それらがどのように異なるかを研究する。
クロードは多くの実践的、疫学的な価値観を表現し、典型的には「道徳的ニヒリズム」のような価値観に抵抗しながら、社会的な人間の価値観を支持している。
いくつかの値は連続的に文脈に現れるが(例えば「透明性」)、多くはより特殊で文脈に依存しており、人間同士の相互関係の多様性と様々な文脈を反映している。
例えば、クロードがユーザーを抵抗する時に「ハーム予防」が出現し、議論の的になっている出来事に関する質問に答えるときに「歴史的正確性」、関係アドバイスを求めるときに「健康境界」、技術倫理に関する議論において「人間機関」が現れる。
デプロイメントにおけるAI価値の大規模な経験的マッピングを初めて提供することで、私たちの研究は、AIシステムにおける価値のより基礎的な評価と設計のための基盤を作り上げます。
関連論文リスト
- Modelling Human Values for AI Reasoning [2.320648715016106]
我々は,その明示的な計算表現のために,人間の値の形式モデルを詳述する。
我々は、このモデルが、価値に対するAIベースの推論の基礎となる装置をいかに提供できるかを示す。
我々は、AIにおける人間の価値を統合し、学際的に研究するためのロードマップを提案する。
論文 参考訳(メタデータ) (2024-02-09T12:08:49Z) - Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。
統計的学習者として、AIシステムはデフォルトで平均に適合する。
ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文 参考訳(メタデータ) (2023-09-02T01:24:59Z) - That's All Folks: a KG of Values as Commonsense Social Norms and
Behaviors [0.34265828682659694]
FOLK と That's All Folks という2つの存在論的加群を提案する。
FOLKは広義に意図された値のオントロジーであり、That's All Folksは語彙的および事実的なフォークバリュートリガのモジュールである。
このリソースは、フレームベースのアプローチでテキストから値を自動的に検出することでテストされる。
論文 参考訳(メタデータ) (2023-03-01T16:35:46Z) - Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。
AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。
我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文 参考訳(メタデータ) (2022-04-11T14:36:39Z) - ValueNet: A New Dataset for Human Value Driven Dialogue System [103.2044265617704]
本稿では,21,374のテキストシナリオに対する人間の態度を含む,ValueNetという大規模人的価値データセットを提案する。
総合的な経験的結果は、学習された価値モデルが幅広い対話作業に有用であることを示している。
ValueNetは、人間の価値モデリングのための最初の大規模テキストデータセットである。
論文 参考訳(メタデータ) (2021-12-12T23:02:52Z) - Delphi: Towards Machine Ethics and Norms [38.8316885346292]
機械倫理と規範に対する4つの根本的な課題を特定します。
私たちのプロトタイプモデルであるDelphiは、言語ベースのコモンセンス道徳的推論の強い可能性を実証しています。
我々は,機械用にカスタマイズされた道徳教科書であるCommonsense Norm Bankを提示する。
論文 参考訳(メタデータ) (2021-10-14T17:38:12Z) - Towards Abstract Relational Learning in Human Robot Interaction [73.67226556788498]
人間は環境における実体を豊かに表現する。
ロボットが人間とうまく対話する必要がある場合、同様の方法で実体、属性、一般化を表現する必要がある。
本研究では,人間とロボットの相互作用を通じて,これらの表現をどのように獲得するかという課題に対処する。
論文 参考訳(メタデータ) (2020-11-20T12:06:46Z) - Scruples: A Corpus of Community Ethical Judgments on 32,000 Real-Life
Anecdotes [72.64975113835018]
記述倫理に動機づけられた我々は、機械倫理に対する新しいデータ駆動アプローチを調査する。
Scruplesは、625,000の倫理的判断を持つ最初の大規模データセットで、32,000の実生活の逸話について紹介する。
我々のデータセットは最先端のニューラルネットワークモデルに対して大きな課題を示し、改善の余地を残しています。
論文 参考訳(メタデータ) (2020-08-20T17:34:15Z) - Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。
現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。
私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文 参考訳(メタデータ) (2020-08-05T17:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。