論文の概要: Generative Models, Humans, Predictive Models: Who Is Worse at High-Stakes Decision Making?
- arxiv url: http://arxiv.org/abs/2410.15471v2
- Date: Fri, 14 Feb 2025 05:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:46:26.152168
- Title: Generative Models, Humans, Predictive Models: Who Is Worse at High-Stakes Decision Making?
- Title(参考訳): 生成モデル、人間、予測モデル:誰が高い意思決定に価値があるか?
- Authors: Keri Mallari, Julius Adebayo, Kori Inkpen, Martin T. Wells, Albert Gordo, Sarah Tan,
- Abstract要約: 大規模な生成モデル(LM)は、これまで予測モデルや人間によって行われていた意思決定タスクに既に使用されている。
我々は、高い意思決定タスクである再帰的予測において、人気のあるLMをテストに投入した。
- 参考スコア(独自算出の注目度): 10.225573060836478
- License:
- Abstract: Despite strong advisory against it, large generative models (LMs) are already being used for decision making tasks that were previously done by predictive models or humans. We put popular LMs to the test in a high-stakes decision making task: recidivism prediction. Studying three closed-access and open-source LMs, we analyze the LMs not exclusively in terms of accuracy, but also in terms of agreement with (imperfect, noisy, and sometimes biased) human predictions or existing predictive models. We conduct experiments that assess how providing different types of information, including distractor information such as photos, can influence LM decisions. We also stress test techniques designed to either increase accuracy or mitigate bias in LMs, and find that some to have unintended consequences on LM decisions. Our results provide additional quantitative evidence to the wisdom that current LMs are not the right tools for these types of tasks.
- Abstract(参考訳): それに対する強い助言にもかかわらず、大規模な生成モデル(LM)は、以前は予測モデルや人間によってなされていた意思決定タスクに既に使用されている。
我々は、高い意思決定タスクである再帰的予測において、人気のあるLMをテストに投入した。
3つのクローズドアクセスおよびオープンソースLMを調べた結果、LMは正確性だけでなく、人間の予測(不完全、ノイズ、時には偏り)や既存の予測モデルとの整合性についても分析した。
我々は、写真などの邪魔情報を含む様々な種類の情報を提供することが、LM決定にどのように影響するかを評価する実験を行う。
また、LMの精度を高めるかバイアスを軽減するために設計されたテスト手法を強調し、LM決定に意図しない結果をもたらすものも見いだす。
この結果から,現在のLMがこれらのタスクに適したツールではないという知見が得られた。
関連論文リスト
- Mind the Uncertainty in Human Disagreement: Evaluating Discrepancies between Model Predictions and Human Responses in VQA [26.968874222330978]
本研究は,視覚質問応答(VQA)タスクに焦点をあてる。
視覚言語モデルが人間の反応の分布とどのように相関するかを評価する。
論文 参考訳(メタデータ) (2024-09-17T13:44:25Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Ecosystem-level Analysis of Deployed Machine Learning Reveals Homogeneous Outcomes [72.13373216644021]
本研究では,機械学習の社会的影響を,特定の文脈に展開されるモデルの集合を考慮し検討する。
デプロイされた機械学習はシステム障害を起こしやすいため、利用可能なすべてのモデルに排他的に誤分類されているユーザもいます。
これらの例は、エコシステムレベルの分析が、機械学習の社会的影響を特徴づける独自の強みを持っていることを示している。
論文 参考訳(メタデータ) (2023-07-12T01:11:52Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - Less Likely Brainstorming: Using Language Models to Generate Alternative
Hypotheses [45.720065723998225]
我々は、人間が関連性があると思われるが、起こりそうにないアウトプットを生成するためにモデルに要求する新しいタスク「非インブレインストーミング」を導入する。
目標として仮説の可能性が低いトレーニングのベースラインアプローチは、人間がほぼ半分の確率または無関係であると評価するアウトプットを生成する。
そこで本研究では,新たなコントラスト学習手法を用いたテキスト生成手法を提案する。
論文 参考訳(メタデータ) (2023-05-30T18:05:34Z) - Large Language Models as Zero-Shot Human Models for Human-Robot Interaction [12.455647753787442]
大型言語モデル(LLM)は、人間とロボットの相互作用のためのゼロショット人間モデルとして機能する。
LLMは目的のモデルに匹敵する性能を達成する。
シミュレーションされた信頼に基づくテーブルクリーニングタスクのケーススタディを提案する。
論文 参考訳(メタデータ) (2023-03-06T23:16:24Z) - Ground(less) Truth: A Causal Framework for Proxy Labels in
Human-Algorithm Decision-Making [29.071173441651734]
人間のAI意思決定タスクにおけるプロキシラベルの有効性に影響を与える5つの変数バイアス源を同定する。
各バイアス間の関係を乱すための因果的枠組みを開発する。
今後の研究において、ターゲット変数バイアスに対処する機会について論じる。
論文 参考訳(メタデータ) (2023-02-13T16:29:11Z) - Investigations of Performance and Bias in Human-AI Teamwork in Hiring [30.046502708053097]
AIによる意思決定では、効果的なハイブリッドチームワーク(ヒューマンAI)は、AIのパフォーマンスにのみ依存するものではない。
本研究では,モデルの予測性能とバイアスの両方が,推薦型意思決定タスクにおいてどのように人間に伝達されるかを検討する。
論文 参考訳(メタデータ) (2022-02-21T17:58:07Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - Probabilistic Human Motion Prediction via A Bayesian Neural Network [71.16277790708529]
本稿では,人間の動作予測のための確率モデルを提案する。
我々のモデルは、観測された動きシーケンスが与えられたときに、いくつかの将来の動きを生成することができる。
我々は、大規模ベンチマークデータセットHuman3.6mに対して、我々のアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2021-07-14T09:05:33Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。