論文の概要: How Aligned are Generative Models to Humans in High-Stakes Decision-Making?
- arxiv url: http://arxiv.org/abs/2410.15471v1
- Date: Sun, 20 Oct 2024 19:00:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:20:13.896662
- Title: How Aligned are Generative Models to Humans in High-Stakes Decision-Making?
- Title(参考訳): 高精度意思決定における生成モデルと人間との関係
- Authors: Sarah Tan, Keri Mallari, Julius Adebayo, Albert Gordo, Martin T. Wells, Kori Inkpen,
- Abstract要約: 大規模生成モデル(LM)は、高い意思決定のためにますます検討されている。
この研究は、リシビズム予測の特定のケースにおいて、そのようなモデルが人間や予測AIモデルとどのように比較されるかを検討する。
- 参考スコア(独自算出の注目度): 10.225573060836478
- License:
- Abstract: Large generative models (LMs) are increasingly being considered for high-stakes decision-making. This work considers how such models compare to humans and predictive AI models on a specific case of recidivism prediction. We combine three datasets -- COMPAS predictive AI risk scores, human recidivism judgements, and photos -- into a dataset on which we study the properties of several state-of-the-art, multimodal LMs. Beyond accuracy and bias, we focus on studying human-LM alignment on the task of recidivism prediction. We investigate if these models can be steered towards human decisions, the impact of adding photos, and whether anti-discimination prompting is effective. We find that LMs can be steered to outperform humans and COMPAS using in context-learning. We find anti-discrimination prompting to have unintended effects, causing some models to inhibit themselves and significantly reduce their number of positive predictions.
- Abstract(参考訳): 大規模生成モデル(LM)は、高い意思決定のためにますます検討されている。
この研究は、リシビズム予測の特定のケースにおいて、そのようなモデルが人間や予測AIモデルとどのように比較されるかを検討する。
われわれは、CompAS予測AIリスクスコア、人間のリシディズム判断、写真という3つのデータセットを、最先端のマルチモーダルLMの特性を研究するデータセットに組み合わせている。
精度とバイアスの他に、人間とLMのアライメントを再現性予測の課題に焦点をあてる。
これらのモデルが人間の決定に向けられるか、写真の追加による影響、そして、識別防止効果が有効かどうかを検討する。
文脈学習では,LMは人間やCompASよりも優れることがわかった。
反差別は意図しない効果を誘発し、一部のモデルが自分自身を阻害し、肯定的な予測の数を著しく減少させる。
関連論文リスト
- Mind the Uncertainty in Human Disagreement: Evaluating Discrepancies between Model Predictions and Human Responses in VQA [26.968874222330978]
本研究は,視覚質問応答(VQA)タスクに焦点をあてる。
視覚言語モデルが人間の反応の分布とどのように相関するかを評価する。
論文 参考訳(メタデータ) (2024-09-17T13:44:25Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Ecosystem-level Analysis of Deployed Machine Learning Reveals Homogeneous Outcomes [72.13373216644021]
本研究では,機械学習の社会的影響を,特定の文脈に展開されるモデルの集合を考慮し検討する。
デプロイされた機械学習はシステム障害を起こしやすいため、利用可能なすべてのモデルに排他的に誤分類されているユーザもいます。
これらの例は、エコシステムレベルの分析が、機械学習の社会的影響を特徴づける独自の強みを持っていることを示している。
論文 参考訳(メタデータ) (2023-07-12T01:11:52Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - Less Likely Brainstorming: Using Language Models to Generate Alternative
Hypotheses [45.720065723998225]
我々は、人間が関連性があると思われるが、起こりそうにないアウトプットを生成するためにモデルに要求する新しいタスク「非インブレインストーミング」を導入する。
目標として仮説の可能性が低いトレーニングのベースラインアプローチは、人間がほぼ半分の確率または無関係であると評価するアウトプットを生成する。
そこで本研究では,新たなコントラスト学習手法を用いたテキスト生成手法を提案する。
論文 参考訳(メタデータ) (2023-05-30T18:05:34Z) - Large Language Models as Zero-Shot Human Models for Human-Robot Interaction [12.455647753787442]
大型言語モデル(LLM)は、人間とロボットの相互作用のためのゼロショット人間モデルとして機能する。
LLMは目的のモデルに匹敵する性能を達成する。
シミュレーションされた信頼に基づくテーブルクリーニングタスクのケーススタディを提案する。
論文 参考訳(メタデータ) (2023-03-06T23:16:24Z) - Ground(less) Truth: A Causal Framework for Proxy Labels in
Human-Algorithm Decision-Making [29.071173441651734]
人間のAI意思決定タスクにおけるプロキシラベルの有効性に影響を与える5つの変数バイアス源を同定する。
各バイアス間の関係を乱すための因果的枠組みを開発する。
今後の研究において、ターゲット変数バイアスに対処する機会について論じる。
論文 参考訳(メタデータ) (2023-02-13T16:29:11Z) - Investigations of Performance and Bias in Human-AI Teamwork in Hiring [30.046502708053097]
AIによる意思決定では、効果的なハイブリッドチームワーク(ヒューマンAI)は、AIのパフォーマンスにのみ依存するものではない。
本研究では,モデルの予測性能とバイアスの両方が,推薦型意思決定タスクにおいてどのように人間に伝達されるかを検討する。
論文 参考訳(メタデータ) (2022-02-21T17:58:07Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - Probabilistic Human Motion Prediction via A Bayesian Neural Network [71.16277790708529]
本稿では,人間の動作予測のための確率モデルを提案する。
我々のモデルは、観測された動きシーケンスが与えられたときに、いくつかの将来の動きを生成することができる。
我々は、大規模ベンチマークデータセットHuman3.6mに対して、我々のアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2021-07-14T09:05:33Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。