論文の概要: What's In My Human Feedback? Learning Interpretable Descriptions of Preference Data
- arxiv url: http://arxiv.org/abs/2510.26202v1
- Date: Thu, 30 Oct 2025 07:25:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.696493
- Title: What's In My Human Feedback? Learning Interpretable Descriptions of Preference Data
- Title(参考訳): 人間のフィードバックには何があるのか? 予測データの解釈可能な記述を学習する
- Authors: Rajiv Movva, Smitha Milli, Sewon Min, Emma Pierson,
- Abstract要約: In My Human Feedback? (WIMHF)はスパースオートエンコーダを用いてフィードバックデータを説明する方法である。
WIMHFは、(1)データセットが測定できる嗜好と(2)アノテーションが実際に表現する嗜好の両方を特徴付ける。
- 参考スコア(独自算出の注目度): 20.75601428185122
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human feedback can alter language models in unpredictable and undesirable ways, as practitioners lack a clear understanding of what feedback data encodes. While prior work studies preferences over certain attributes (e.g., length or sycophancy), automatically extracting relevant features without pre-specifying hypotheses remains challenging. We introduce What's In My Human Feedback? (WIMHF), a method to explain feedback data using sparse autoencoders. WIMHF characterizes both (1) the preferences a dataset is capable of measuring and (2) the preferences that the annotators actually express. Across 7 datasets, WIMHF identifies a small number of human-interpretable features that account for the majority of the preference prediction signal achieved by black-box models. These features reveal a wide diversity in what humans prefer, and the role of dataset-level context: for example, users on Reddit prefer informality and jokes, while annotators in HH-RLHF and PRISM disprefer them. WIMHF also surfaces potentially unsafe preferences, such as that LMArena users tend to vote against refusals, often in favor of toxic content. The learned features enable effective data curation: re-labeling the harmful examples in Arena yields large safety gains (+37%) with no cost to general performance. They also allow fine-grained personalization: on the Community Alignment dataset, we learn annotator-specific weights over subjective features that improve preference prediction. WIMHF provides a human-centered analysis method for practitioners to better understand and use preference data.
- Abstract(参考訳): 人間のフィードバックは、予測不可能で望ましくない方法で言語モデルを変更できる。
先行研究では、特定の属性(例えば、長さや薬学)を優先するが、事前に仮説を立てることなく自動的に関連する特徴を抽出するのは難しい。
人間のフィードバックについて紹介する。
(WIMHF) スパースオートエンコーダを用いてフィードバックデータを説明する方法。
WIMHFは、(1)データセットが測定できる嗜好と(2)アノテーションが実際に表現する嗜好の両方を特徴付ける。
7つのデータセットにまたがって、WIMHFはブラックボックスモデルによって達成される嗜好予測信号の大部分を占める、少数の人間解釈可能な特徴を識別する。
例えば、Redditのユーザは非公式性やジョークを好み、HH-RLHFやPRISMのアノテータはそれを好まない。
WIMHFはまた、LMArenaユーザーがしばしば有毒なコンテンツに賛成して拒否に反対する傾向にあるなど、潜在的に安全でない選好を表面化している。
アリーナの有害な例を再ラベルすることで、一般的なパフォーマンスにコストがかからず、大きな安全性向上(+37%)が得られる。
コミュニティアライメントデータセットでは、好みの予測を改善する主観的な特徴について、アノテータ固有の重みを学習します。
WIMHFは、実践者が好みのデータをよりよく理解し利用するための、人間中心の分析方法を提供する。
関連論文リスト
- Policy Teaching via Data Poisoning in Learning from Human Preferences [24.645259298082436]
人間の嗜好から学習する際のデータ中毒攻撃について検討する。
我々は、嗜好データを合成することで、ターゲットポリシーを$pidagger$で教え/強化する問題について研究する。
論文 参考訳(メタデータ) (2025-03-13T10:11:54Z) - Rethinking Diverse Human Preference Learning through Principal Component Analysis [22.123631189289963]
二項比較から多種多様な人間の嗜好を抽出するために, DRM(Decomposed Reward Models)を導入する。
DRMは好みをベクトルとして表現し、主成分分析(PCA)を用いて分析する
DRMは、意味のある好みの次元(例えば、有用性、安全性、ユーモア)を効果的に抽出し、追加のトレーニングなしで新規ユーザーに適応する。
論文 参考訳(メタデータ) (2025-02-18T18:55:26Z) - Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
我々はHyPERを紹介した。HyPERは、人間または言語モデル(LM)にアノテーションを付与するハイブリッド推論ルータである。
その結果,HyPERを用いた人工選好と直接選好の混合は,RewardBenchでは7-13%しか使用せず,RM性能が向上していることがわかった。
また、HyPERの機能を分析した結果、安全上の懸念や複雑さが人間のフィードバックから最も恩恵を受けていることがわかりました。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - LRHP: Learning Representations for Human Preferences via Preference Pairs [45.056558199304554]
本研究では、よりリッチで構造化された人間の嗜好表現を構築することを目的とした嗜好表現学習タスクを提案する。
選好データ選択と選好マージン予測という2つの下流タスクにおける選好表現の有用性を検証する。
論文 参考訳(メタデータ) (2024-10-06T14:48:28Z) - Data-Centric Human Preference with Rationales for Direct Preference Alignment [23.243583332894737]
本稿では,人間の嗜好の背景にある理由を説明する理屈による標準選好ペアの強化を提案する。
包括的分析により,合理性を取り入れることで学習効率が向上することが示された。
本研究は,優先学習における思慮深いデータ設計の可能性を示すものである。
論文 参考訳(メタデータ) (2024-07-19T17:27:52Z) - Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Inverse Constitutional AI: Compressing Preferences into Principles [37.28372419588119]
Inverse Constitutional AI (ICAI) 問題を導入し、一対のテキスト嗜好データの解釈を圧縮タスクとして定式化する。
コンスティチューションAIでは、フィードバックと微調整AIモデルを提供するために、一連の原則(コンスティチューション)が使用される。
対応するICAIアルゴリズムを提案し,その生成した構成を複数のデータセットで検証する。
論文 参考訳(メタデータ) (2024-06-02T11:54:50Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - Personalized Language Modeling from Personalized Human Feedback [45.16986573937782]
パーソナライズされた大規模言語モデル(LLM)は、個々のユーザの好みに応答するように設計されている。
個人の好みを捉えるために軽量なユーザモデルを利用する効率的なフレームワークであるPersonalized-RLHFを提案する。
P-RLHF を用いて学習したパーソナライズされた LLM は,個々のユーザの好みとより密に一致した応答を生成する。
論文 参考訳(メタデータ) (2024-02-06T04:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。