論文の概要: Value Imprint: A Technique for Auditing the Human Values Embedded in RLHF Datasets
- arxiv url: http://arxiv.org/abs/2411.11937v1
- Date: Mon, 18 Nov 2024 16:12:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:37:52.688764
- Title: Value Imprint: A Technique for Auditing the Human Values Embedded in RLHF Datasets
- Title(参考訳): 価値インプリント:RLHFデータセットに埋め込まれた人間の価値を監査する手法
- Authors: Ike Obi, Rohan Pant, Srishti Shekhar Agrawal, Maham Ghazanfar, Aaron Basiletti,
- Abstract要約: 本稿では,RLHFデータセットに埋め込まれた人間の値の監査と分類を行うフレームワークであるValue Imprintを紹介する。
我々は,Arthropic/hh-rlhf,OpenAI WebGPT Comparisons,Alpaca GPT-4-LLMデータセットの3つのケーススタディ実験を行った。
我々は、Wisdom/KnowledgeやInformation Seekingを含む情報活用価値が、3つのRLHFデータセットの中で最も重要な人的価値であることを発見した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: LLMs are increasingly fine-tuned using RLHF datasets to align them with human preferences and values. However, very limited research has investigated which specific human values are operationalized through these datasets. In this paper, we introduce Value Imprint, a framework for auditing and classifying the human values embedded within RLHF datasets. To investigate the viability of this framework, we conducted three case study experiments by auditing the Anthropic/hh-rlhf, OpenAI WebGPT Comparisons, and Alpaca GPT-4-LLM datasets to examine the human values embedded within them. Our analysis involved a two-phase process. During the first phase, we developed a taxonomy of human values through an integrated review of prior works from philosophy, axiology, and ethics. Then, we applied this taxonomy to annotate 6,501 RLHF preferences. During the second phase, we employed the labels generated from the annotation as ground truth data for training a transformer-based machine learning model to audit and classify the three RLHF datasets. Through this approach, we discovered that information-utility values, including Wisdom/Knowledge and Information Seeking, were the most dominant human values within all three RLHF datasets. In contrast, prosocial and democratic values, including Well-being, Justice, and Human/Animal Rights, were the least represented human values. These findings have significant implications for developing language models that align with societal values and norms. We contribute our datasets to support further research in this area.
- Abstract(参考訳): LLMはRLHFデータセットを使用して、人間の好みや値に合わせて微調整されるようになっている。
しかしながら、これらのデータセットを通じて特定の人間の価値が操作されるかは、非常に限定的な研究によって研究されている。
本稿では,RLHFデータセットに埋め込まれた人間の価値を監査・分類するフレームワークであるValue Imprintを紹介する。
本フレームワークの実用性を検討するために,Arthropic/hh-rlhf,OpenAI WebGPT Comparisons,Alpaca GPT-4-LLMデータセットの3つのケーススタディ実験を行った。
我々の分析には2段階のプロセスがあった。
第1フェーズでは,哲学,公理学,倫理学の先行研究の総合的なレビューを通じて,人間の価値の分類法を開発した。
次に,この分類法を用いて6,501RLHFの嗜好を注釈した。
第2フェーズでは、3つのRLHFデータセットを監査・分類するために、トランスフォーマーベースの機械学習モデルをトレーニングするために、アノテーションから生成されたラベルを基底真理データとして使用した。
このアプローチを通じて、Wisdom/KnowledgeやInformation Seekingといった情報活用価値が、3つのRLHFデータセットの中で最も重要な人間の値であることが判明した。
対照的に、ウェルビーイング、ジャスティス、ヒューマン・アニマル・ライツなど、社会的・民主的な価値観は、人的価値が最少であった。
これらの知見は,社会的価値や規範に沿った言語モデルの開発に重要な意味を持つ。
この分野のさらなる研究を支援するために、データセットをコントリビュートしています。
関連論文リスト
- AlignSum: Data Pyramid Hierarchical Fine-tuning for Aligning with Human Summarization Preference [22.13596750775719]
そこで本研究では,人間の要約選好アライメントフレームワークAlignSumについて紹介する。
AlignSumでは、BART-LargeのようなPLMが自動評価と人的評価の両方で175B GPT-3を上回っている。
論文 参考訳(メタデータ) (2024-10-01T05:14:48Z) - Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparison [9.324894567200582]
選好データセットを、スケール、ラベルノイズ、情報内容の3つの視点で体系的に研究する。
我々の研究は、RLHFのトレーニング効率と反復的なデータ収集を支援する視点を提供することで、アライメントに対するデータ中心のアプローチに向けた第一歩です。
論文 参考訳(メタデータ) (2024-09-15T03:55:03Z) - Chatting Up Attachment: Using LLMs to Predict Adult Bonds [0.0]
GPT-4とClaude 3 Opusを使用して、さまざまなプロファイル、子供時代の記憶、アタッチメントスタイルを持つ大人をシミュレートするエージェントを作成します。
我々は,同一の面接プロトコルを施行し,精神保健専門家によって分析・ラベル付けされた9人のヒトの転写データセットを用いて,我々のモデルを評価した。
以上の結果から,合成データのみを用いたモデルトレーニングは,人間のデータを用いたモデルトレーニングに匹敵する性能を発揮することが示唆された。
論文 参考訳(メタデータ) (2024-08-31T04:29:19Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Iterative Data Smoothing: Mitigating Reward Overfitting and
Overoptimization in RLHF [79.98542868281471]
強化学習(Reinforcement Learning from Human Feedback, RLHF)は、言語モデルを人間中心の値と密接に整合させる手法である。
学習した報奨モデルに対して過度に最適化すると、最終的には真の目的が損なわれることが観察された。
本稿では、これらの問題を考察し、「Iterative Data Smoothing」(IDS)と呼ばれる改良された報酬学習アルゴリズムの設計に理論的知見を活用する。
論文 参考訳(メタデータ) (2024-01-29T17:43:42Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - Analyzing Wearables Dataset to Predict ADLs and Falls: A Pilot Study [0.0]
本稿では,日常の生活と転倒の行動を認識するシステムの評価に使用できる,30のウェアラブルベースのデータセットを網羅的にレビューする。
5つの機械学習手法を用いたSisFallデータセットの比較分析をピソンで行う。
本研究から得られた結果は,KNNが他の機械学習手法よりも精度,精度,リコールの点で優れていることを証明している。
論文 参考訳(メタデータ) (2022-09-11T04:41:40Z) - ValueNet: A New Dataset for Human Value Driven Dialogue System [103.2044265617704]
本稿では,21,374のテキストシナリオに対する人間の態度を含む,ValueNetという大規模人的価値データセットを提案する。
総合的な経験的結果は、学習された価値モデルが幅広い対話作業に有用であることを示している。
ValueNetは、人間の価値モデリングのための最初の大規模テキストデータセットである。
論文 参考訳(メタデータ) (2021-12-12T23:02:52Z) - Vision-based Behavioral Recognition of Novelty Preference in Pigs [1.837722971703011]
研究データの行動スコアリングは、ドメイン固有のメトリクスを抽出するために重要であるが、人間の労働力を用いて膨大な量の情報を分析する能力にボトルネックがある。
ディープラーニングは、このボトルネックを緩和するための重要な進歩として広く見なされている。
我々は,手動スコアリングのプロセスを緩和するために,ディープラーニングを活用できる分野を1つ同定する。
論文 参考訳(メタデータ) (2021-06-23T06:10:34Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。