論文の概要: Generative Models, Humans, Predictive Models: Who Is Worse at High-Stakes Decision Making?
- arxiv url: http://arxiv.org/abs/2410.15471v2
- Date: Fri, 14 Feb 2025 05:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:46:26.152168
- Title: Generative Models, Humans, Predictive Models: Who Is Worse at High-Stakes Decision Making?
- Title(参考訳): 生成モデル、人間、予測モデル:誰が高い意思決定に価値があるか?
- Authors: Keri Mallari, Julius Adebayo, Kori Inkpen, Martin T. Wells, Albert Gordo, Sarah Tan,
- Abstract要約: 大規模な生成モデル(LM)は、これまで予測モデルや人間によって行われていた意思決定タスクに既に使用されている。
我々は、高い意思決定タスクである再帰的予測において、人気のあるLMをテストに投入した。
- 参考スコア(独自算出の注目度): 10.225573060836478
- License:
- Abstract: Despite strong advisory against it, large generative models (LMs) are already being used for decision making tasks that were previously done by predictive models or humans. We put popular LMs to the test in a high-stakes decision making task: recidivism prediction. Studying three closed-access and open-source LMs, we analyze the LMs not exclusively in terms of accuracy, but also in terms of agreement with (imperfect, noisy, and sometimes biased) human predictions or existing predictive models. We conduct experiments that assess how providing different types of information, including distractor information such as photos, can influence LM decisions. We also stress test techniques designed to either increase accuracy or mitigate bias in LMs, and find that some to have unintended consequences on LM decisions. Our results provide additional quantitative evidence to the wisdom that current LMs are not the right tools for these types of tasks.
- Abstract(参考訳): それに対する強い助言にもかかわらず、大規模な生成モデル(LM)は、以前は予測モデルや人間によってなされていた意思決定タスクに既に使用されている。
我々は、高い意思決定タスクである再帰的予測において、人気のあるLMをテストに投入した。
3つのクローズドアクセスおよびオープンソースLMを調べた結果、LMは正確性だけでなく、人間の予測(不完全、ノイズ、時には偏り)や既存の予測モデルとの整合性についても分析した。
我々は、写真などの邪魔情報を含む様々な種類の情報を提供することが、LM決定にどのように影響するかを評価する実験を行う。
また、LMの精度を高めるかバイアスを軽減するために設計されたテスト手法を強調し、LM決定に意図しない結果をもたらすものも見いだす。
この結果から,現在のLMがこれらのタスクに適したツールではないという知見が得られた。
関連論文リスト
- Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。
提案手法は4つの標準NLPベンチマークを用いて検証する。
いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文 参考訳(メタデータ) (2024-11-25T01:48:09Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Self-Recognition in Language Models [10.649471089216489]
モデル生成型「セキュリティ問題」を用いたLMの自己認識評価手法を提案する。
現在公開されている最も有能なオープンソースかつクローズドなLMのうち10つにおいて、私たちのテストを使って自己認識を検証しています。
我々の結果は、一組の代替案が与えられた場合、LMはその起源に関係なく「ベスト」な答えを選択しようとすることを示唆している。
論文 参考訳(メタデータ) (2024-07-09T15:23:28Z) - Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。
また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文 参考訳(メタデータ) (2024-06-12T16:41:31Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - Evidence > Intuition: Transferability Estimation for Encoder Selection [16.490047604583882]
我々は、全ての候補を微調整することなく、目標タスクにおいてどのLMが最善を尽くすかを予測する定量的な証拠を生成する。
我々は,コンピュータビジョン(CV)のLogME(Logarithm Maximum of Evidence)尺度を採用し,94%のセットアップにおいて,最終的なLM性能と正の相関関係があることを見出した。
論文 参考訳(メタデータ) (2022-10-20T13:25:21Z) - How can I choose an explainer? An Application-grounded Evaluation of
Post-hoc Explanations [2.7708222692419735]
説明は意思決定タスクに対する実際の影響に基づいて評価されることはめったにない。
本研究は,エンドユーザーに対して異なるレベルの情報を提供することによる影響を分離するアプリケーショングラウンド評価手法であるXAI Testを提案する。
強い統計的分析を用いて、一般的な説明者は、望まれるよりも悪い影響を持つことを示す。
論文 参考訳(メタデータ) (2021-01-21T18:15:13Z) - When Does Uncertainty Matter?: Understanding the Impact of Predictive
Uncertainty in ML Assisted Decision Making [68.19284302320146]
我々は,異なるレベルの専門知識を持つ人々が,異なるタイプの予測不確実性にどう反応するかを評価するために,ユーザスタディを実施している。
その結果,後続の予測分布を示すことは,MLモデルの予測との相違点が小さくなることがわかった。
このことは、後続の予測分布は、人間の分布の種類や専門性を考慮し、注意を払って使用するべき有用な決定支援として役立つ可能性があることを示唆している。
論文 参考訳(メタデータ) (2020-11-12T02:23:53Z) - An Information-Theoretic Approach to Personalized Explainable Machine
Learning [92.53970625312665]
本稿では,予測とユーザ知識のための簡易確率モデルを提案する。
説明と予測の間の条件付き相互情報による説明の効果を定量化する。
論文 参考訳(メタデータ) (2020-03-01T13:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。