論文の概要: Value Profiles for Encoding Human Variation
- arxiv url: http://arxiv.org/abs/2503.15484v1
- Date: Wed, 19 Mar 2025 17:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:26:14.205713
- Title: Value Profiles for Encoding Human Variation
- Title(参考訳): 人間の変分を符号化するための値プロファイル
- Authors: Taylor Sorensen, Pushkar Mishra, Roma Patel, Michael Henry Tessler, Michiel Bakker, Georgina Evans, Iason Gabriel, Noah Goodman, Verena Rieser,
- Abstract要約: 本研究では,文脈内実演から圧縮された値の自然言語記述である値プロファイルを用いて個人を表現することを提案する。
デモには最も多くの情報が含まれており、続いて価値プロファイルと人口統計が続く。
値プロファイルは、圧縮された自然言語フォーマットのため、精査性、解釈性、操縦性という点で利点がある。
- 参考スコア(独自算出の注目度): 17.23399556310694
- License:
- Abstract: Modelling human variation in rating tasks is crucial for enabling AI systems for personalization, pluralistic model alignment, and computational social science. We propose representing individuals using value profiles -- natural language descriptions of underlying values compressed from in-context demonstrations -- along with a steerable decoder model to estimate ratings conditioned on a value profile or other rater information. To measure the predictive information in rater representations, we introduce an information-theoretic methodology. We find that demonstrations contain the most information, followed by value profiles and then demographics. However, value profiles offer advantages in terms of scrutability, interpretability, and steerability due to their compressed natural language format. Value profiles effectively compress the useful information from demonstrations (>70% information preservation). Furthermore, clustering value profiles to identify similarly behaving individuals better explains rater variation than the most predictive demographic groupings. Going beyond test set performance, we show that the decoder models interpretably change ratings according to semantic profile differences, are well-calibrated, and can help explain instance-level disagreement by simulating an annotator population. These results demonstrate that value profiles offer novel, predictive ways to describe individual variation beyond demographics or group information.
- Abstract(参考訳): 評価タスクにおける人間のバリエーションをモデル化することは、パーソナライズ、多元的モデルアライメント、計算社会科学のためのAIシステムの実現に不可欠である。
提案手法は,文脈内デモから圧縮された値の自然言語記述と,値プロファイルや他のレーダ情報に基づいて評価された評価を推定するステアブルデコーダモデルを用いて個人を表現する。
レーダ表現における予測情報を測定するために,情報理論手法を導入する。
デモには最も多くの情報が含まれており、続いて価値プロファイルと人口統計が続く。
しかし、値プロファイルは、圧縮された自然言語フォーマットのため、精査可能性、解釈可能性、および操縦性の観点から利点がある。
価値プロファイルは、デモから有用な情報を効果的に圧縮する(>70%情報保存)。
さらに、同様に行動する個人を識別するためのクラスタリング値プロファイルは、最も予測された人口統計学的グループよりも、レーダの変動をよりよく説明する。
テストセットのパフォーマンスを超えると、デコーダモデルは意味的プロファイルの違いに応じて解釈的に評価を変更できることを示し、アノテータの人口をシミュレートすることで、インスタンスレベルの不一致を説明するのに役立つ。
これらの結果は、価値プロファイルが、人口統計学やグループ情報を超えた個人変動を記述する新しい予測方法を提供することを示している。
関連論文リスト
- Accurate and Data-Efficient Toxicity Prediction when Annotators Disagree [1.3749490831384268]
アノテータが同意しない場合、個々のアノテータによって与えられるラベルを予測すれば、従来のラベル集約によって見落とされたニュアンスをキャプチャすることができる。
テキストの毒性に基づいて,個々のアノテータ評価を予測するための3つのアプローチを提案する。
評価予測のための人口統計情報の有用性について検討する。
論文 参考訳(メタデータ) (2024-10-16T04:26:40Z) - On the Properties and Estimation of Pointwise Mutual Information Profiles [49.877314063833296]
ポイントワイド相互情報プロファイル(ポイントワイド相互情報プロファイル、英: pointwise mutual information profile)は、与えられた確率変数のペアに対するポイントワイド相互情報の分布である。
そこで我々は,モンテカルロ法を用いて分布を正確に推定できる新しい分布系 Bend と Mix Models を導入する。
論文 参考訳(メタデータ) (2023-10-16T10:02:24Z) - TIDE: Textual Identity Detection for Evaluating and Augmenting
Classification and Language Models [0.0]
機械学習モデルは、不公平で不均衡なデータセットから意図しないバイアスを永続することができる。
分類器と言語モデルにおけるテキストの公平性を改善するためのアプローチと組み合わせたデータセットを提案する。
我々は、IDコンテキストの可用性向上に使用できるIDアノテーションと拡張ツールを開発するために、TIDALを活用している。
論文 参考訳(メタデータ) (2023-09-07T21:44:42Z) - Distribution Aware Metrics for Conditional Natural Language Generation [3.6350564275444173]
既存のメトリクスは、視覚的記述や、基底真理が意味論的に多様であるような要約のような領域には適さないと論じる。
条件付き言語生成モデルのマルチ候補評価のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-15T17:58:13Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - Conditional Contrastive Learning: Removing Undesirable Information in
Self-Supervised Representations [108.29288034509305]
我々は,自己指導型表現において望ましくない情報を除去するために,条件付きコントラスト学習を開発する。
提案手法は,下流タスクの自己教師付き表現をうまく学習できることを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-05T10:51:26Z) - Balancing Biases and Preserving Privacy on Balanced Faces in the Wild [50.915684171879036]
現在の顔認識(FR)モデルには、人口統計バイアスが存在する。
さまざまな民族と性別のサブグループにまたがる偏見を測定するために、我々のバランス・フェイススをWildデータセットに導入します。
真偽と偽のサンプルペアを区別するために1点のスコアしきい値に依存すると、最適以下の結果が得られます。
本稿では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T15:05:49Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - On Predicting Personal Values of Social Media Users using
Community-Specific Language Features and Personal Value Correlation [14.12186042953335]
この研究は、シンガポールのユーザーの個人的価値を分析し、Facebookデータを用いて個人的価値を予測する効果的なモデルを開発することに焦点を当てている。
提案したスタックモデルには,基本モデルのタスク固有層とクロススティッチ層モデルからなる相関関係が組み込まれている。
論文 参考訳(メタデータ) (2020-07-16T04:36:13Z) - Adversarial Infidelity Learning for Model Interpretation [43.37354056251584]
本稿では,モデル解釈のためのモデル非依存能率直接(MEED)FSフレームワークを提案する。
我々のフレームワークは、正当性、ショートカット、モデルの識別可能性、情報伝達に関する懸念を緩和する。
我々のAILメカニズムは、選択した特徴と目標の間の条件分布を学習するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-09T16:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。