論文の概要: Street-Level AI: Are Large Language Models Ready for Real-World Judgments?
- arxiv url: http://arxiv.org/abs/2508.08193v1
- Date: Mon, 11 Aug 2025 17:12:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.231587
- Title: Street-Level AI: Are Large Language Models Ready for Real-World Judgments?
- Title(参考訳): ストリートレベルAI: 大規模言語モデルは現実世界の判断に使えるか?
- Authors: Gaurab Pokharel, Shafkat Farabi, Patrick J. Fowler, Sanmay Das,
- Abstract要約: 直近でおそらくはAIは、いわゆるストリートレベルの官僚を支援するか、完全に置き換えることである。
本稿では,LLM判定が人間の判断とどのように一致しているかを検討する。
LLMの優先順位付けは、いくつかの点で非常に矛盾している。
- 参考スコア(独自算出の注目度): 9.562145896371787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A surge of recent work explores the ethical and societal implications of large-scale AI models that make "moral" judgments. Much of this literature focuses either on alignment with human judgments through various thought experiments or on the group fairness implications of AI judgments. However, the most immediate and likely use of AI is to help or fully replace the so-called street-level bureaucrats, the individuals deciding to allocate scarce social resources or approve benefits. There is a rich history underlying how principles of local justice determine how society decides on prioritization mechanisms in such domains. In this paper, we examine how well LLM judgments align with human judgments, as well as with socially and politically determined vulnerability scoring systems currently used in the domain of homelessness resource allocation. Crucially, we use real data on those needing services (maintaining strict confidentiality by only using local large models) to perform our analyses. We find that LLM prioritizations are extremely inconsistent in several ways: internally on different runs, between different LLMs, and between LLMs and the vulnerability scoring systems. At the same time, LLMs demonstrate qualitative consistency with lay human judgments in pairwise testing. Findings call into question the readiness of current generation AI systems for naive integration in high-stakes societal decision-making.
- Abstract(参考訳): 最近の研究の急増は、「道徳的」判断を下す大規模AIモデルの倫理的および社会的意味を探求している。
この文献の多くは、様々な思考実験を通して人間の判断と一致させるか、あるいはAI判断の集団的公正性の影響に焦点を当てている。
しかし、AIの最も急速かつ可能性の高い使用は、いわゆるストリートレベルの官僚を支援するか、完全に置き換えることである。
地方司法の原則が、そのような領域において社会がどのように優先順位付けのメカニズムを決定するかを決定するかは、豊富な歴史がある。
本稿では,LLM判断が人的判断とどのように一致しているか,および現在ホームレス資源配分の領域で使用されている社会的・政治的に決定された脆弱性評価システムについて検討する。
重要なことは、分析を行うために、サービスを必要とする人たち(ローカルな大規模モデルのみを使用して厳密な機密性を維持する)の実際のデータを使用します。
LLMの優先順位付けは、内部的に異なるランニング、異なるランニング、LLMと脆弱性スコアリングシステムの間で、非常に不整合であることがわかった。
同時に、LLMは、ペアワイズテストにおいて、通常の人間の判断と質的な整合性を示す。
発見者は、現在の世代のAIシステムの高い社会的意思決定におけるナイーブな統合の準備性に疑問を投げかける。
関連論文リスト
- Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games [87.5673042805229]
大規模言語モデルは、アライメント、堅牢性、安全なデプロイメントを保証する上で、いかに自己関心と集合的幸福のバランスをとるかが重要な課題である。
我々は、行動経済学から制度的に選択した公共財ゲームに適応し、異なるLLMがいかに社会的ジレンマをナビゲートするかを観察することができる。
意外なことに、o1シリーズのようなLCMの推論は、協調にかなり苦労している。
論文 参考訳(メタデータ) (2025-06-29T15:02:47Z) - Distributive Fairness in Large Language Models: Evaluating Alignment with Human Values [13.798198972161657]
多くの社会的問題は資源の分配に関係しており、公平さと経済効率は結果の望ましさにおいて重要な役割を担っている。
本稿では,大規模言語モデル (LLM) が基本的公平性の概念に準拠しているかどうかを考察し,人間の嗜好との整合性について検討する。
論文 参考訳(メタデータ) (2025-02-01T04:24:47Z) - Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - Can We Trust AI Agents? A Case Study of an LLM-Based Multi-Agent System for Ethical AI [10.084913433923566]
AIベースのシステムは、多様なタスクをサポートすることによって数百万に影響を及ぼすが、誤情報、偏見、誤用といった問題に直面している。
本研究では,Large Language Models (LLM) を用いたAI倫理の実践について検討する。
エージェントがAIインシデントデータベースから現実のAI倫理問題に関する構造化された議論を行うプロトタイプを設計する。
論文 参考訳(メタデータ) (2024-10-25T20:17:59Z) - Investigating Context Effects in Similarity Judgements in Large Language Models [6.421776078858197]
大規模言語モデル(LLM)は、自然言語テキストの理解と生成におけるAIモデルの能力に革命をもたらした。
命令バイアスによる人的判断とLCMのアライメントに関する調査が進行中である。
論文 参考訳(メタデータ) (2024-08-20T10:26:02Z) - Hybrid Approaches for Moral Value Alignment in AI Agents: a Manifesto [3.7414804164475983]
次世代人工知能(AI)システムの安全性確保への関心が高まっているため、自律エージェントに道徳を埋め込む新しいアプローチが求められている。
連続体としてモデル化された機械に道徳を導入する問題に対する既存のアプローチの体系化を提供する。
我々は、適応可能で堅牢だが制御可能で解釈可能なエージェントシステムを構築するために、よりハイブリッドなソリューションが必要であると論じている。
論文 参考訳(メタデータ) (2023-12-04T11:46:34Z) - Evaluating and Improving Value Judgments in AI: A Scenario-Based Study
on Large Language Models' Depiction of Social Conventions [5.457150493905063]
我々は,現代のAIサービスがユーザニーズにどのように対応しているかを評価し,さらに,大規模言語モデルによって反映された社会の描写を考察した。
本稿では,今後の機械的価値判断に応用可能な,価値調和シナリオにおける意思決定モデルを提案する。
本稿では,他の遠隔地を調査するためのツールとしてAIを利用する実践的アプローチを提唱する。
論文 参考訳(メタデータ) (2023-10-04T08:42:02Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z) - Causal Fairness Analysis [68.12191782657437]
意思決定設定における公平性の問題を理解し、モデル化し、潜在的に解決するためのフレームワークを導入します。
我々のアプローチの主な洞察は、観測データに存在する格差の定量化と、基礎となる、しばしば観測されていない、因果的なメカニズムの収集を結びつけることである。
本研究は,文献中の異なる基準間の関係を整理し,説明するための最初の体系的試みであるフェアネスマップにおいて,本研究の成果を左右するものである。
論文 参考訳(メタデータ) (2022-07-23T01:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。