論文の概要: LLMs in social services: How does chatbot accuracy affect human accuracy?
- arxiv url: http://arxiv.org/abs/2603.11213v1
- Date: Wed, 11 Mar 2026 18:28:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.581926
- Title: LLMs in social services: How does chatbot accuracy affect human accuracy?
- Title(参考訳): ソーシャルサービスにおけるLLM: チャットボットの精度は人間の精度にどのように影響するか?
- Authors: Jennah Gosciak, Eric Giannella, Zhaowen Guo, Michael Chen, Allison Koenecke,
- Abstract要約: 我々は,チャットボットが事例作業者の正確な指導能力に与える影響を計測する。
ロサンゼルスの非営利アウトリーチ組織から採用したケースワーカーを対象にランダムな実験を行った。
高品質なチャットボット(96-100%精度)では、ケースワーカの精度が27ポイント向上した。
- 参考スコア(独自算出の注目度): 4.837450441799026
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Social service programs like the Supplemental Nutrition Assistance Program (SNAP, or food stamps) have eligibility rules that can be challenging to understand. For nonprofit caseworkers who often support clients in navigating a dozen or more complex programs, LLM-based chatbots may offer a means to provide better, faster help to clients whose situations may be less common. In this paper, we measure the potential effects of LLM-based chatbot suggestions on caseworkers' ability to provide accurate guidance. We first created a 770-question multiple-choice benchmark dataset of difficult, but realistic questions that a caseworker might receive. Next, using these benchmark questions and corresponding expert-verified answers, we conducted a randomized experiment with caseworkers recruited from nonprofit outreach organizations in Los Angeles. Caseworkers in the control condition did not see chatbot suggestions and had a mean accuracy of 49%. Caseworkers in the treatment condition saw chatbot suggestions that we artificially varied to range in aggregate accuracy from low (53%) to high (100%). Caseworker performance significantly improves as chatbot quality improves: high-quality chatbots (96-100% accurate) improved caseworker accuracy by 27 percentage points. At the question-level, incorrect chatbot suggestions substantially reduce caseworker accuracy, with a two-thirds reduction on easy questions where the control group performed best (without chatbot suggestions). Finally, improvements in caseworker accuracy level off as chatbot accuracy increases, a phenomenon that we call the "AI underreliance plateau," which is a concern for real-world deployment and highlights the importance of evaluating human-in-the-loop tools with their users.
- Abstract(参考訳): Supplemental Nutrition Assistance Program (SNAP, フードスタンプ) のような社会サービスプログラムには、理解が難しい資格規則がある。
数十以上の複雑なプログラムをナビゲートするクライアントを支援する非営利団体のケースワーナーにとって、LLMベースのチャットボットは、状況があまり一般的でないクライアントにより良い、より高速なヘルプを提供する手段を提供するかもしれない。
本稿では,LLMに基づくチャットボットの提案が,ケースワーカーの正確なガイダンス提供能力に与える影響について検討する。
まず、ケースワーカーが受け取るような、難しいが現実的な質問の、複数の選択のベンチマークデータセットを770件作成しました。
次に、これらのベンチマーク質問とそれに対応する専門家による回答を用いて、ロサンゼルスの非営利アウトリーチ組織から採用されたケースワーカーによるランダム化実験を行った。
対照条件ではチャットボットの提案は見られず,平均精度は49%であった。
治療条件の患者は, 人工的に, 低 (53%) から高 (100%) まで多様であった。
チャットボットの品質が向上するにつれて、ケースワーカのパフォーマンスは大幅に向上し、高品質なチャットボット(96~100%精度)はケースワーカの精度を27ポイント向上した。
質問レベルでは、不正なチャットボット提案はケースワーカの精度を大幅に低下させ、コントロールグループが(チャットボットの提案なしで)最善を尽くすような簡単な質問を3分の2削減する。
最後に、チャットボットの精度が向上するにつれて、ケースワーカの精度が向上する傾向にある。これは、私たちが"AIアンダーリライアンス・プラトー"と呼ぶ現象であり、これは現実のデプロイメントの懸念であり、ユーザによるヒューマン・イン・ザ・ループツールの評価の重要性を強調している。
関連論文リスト
- Automated Testing of Task-based Chatbots: How Far Are We? [5.64612424709862]
タスクベースのチャットボット(英: Task-based chatbots)は、ユーザーが会話インターフェイスを通じてタスクを完了するのを助けるソフトウェアである。
本稿では,GitHubからタスクベースのチャットボットをキュレートした選択に対する最先端テスト手法の有効性を評価する。
論文 参考訳(メタデータ) (2026-02-13T16:32:50Z) - Development and Evaluation of HopeBot: an LLM-based chatbot for structured and interactive PHQ-9 depression screening [48.355615275247786]
HopeBotは、PHQ-9(Patent Health Questionnaire-9)を検索強化世代とリアルタイムの明確化を用いて管理する。
内部調査では、英国と中国の132人の成人が、自己管理版とチャットボット版の両方を完成させた。
全体の87.1%は、ホープボットの再利用や推奨を表明している。
論文 参考訳(メタデータ) (2025-07-08T13:41:22Z) - Empathetic Response in Audio-Visual Conversations Using Emotion Preference Optimization and MambaCompressor [44.499778745131046]
まず、チャットボットのトレーニングに感情的選好最適化(EPO)を用いる。
このトレーニングは、モデルが正しい反応と反感情反応の微妙な区別を識別することを可能にする。
次に,MambaCompressorを導入し,会話履歴を効果的に圧縮し,管理する。
複数のデータセットにまたがる包括的実験により、我々のモデルは共感的応答の生成や長い対話の管理において、既存のモデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2024-12-23T13:44:51Z) - Prompt Engineering a Schizophrenia Chatbot: Utilizing a Multi-Agent Approach for Enhanced Compliance with Prompt Instructions [0.0699049312989311]
統合失調症の患者は、しばしば認知障害を伴い、自分の状態について学ぶ能力を妨げることがある。
大規模言語モデル(LLM)は、トピックのメンタルヘルス情報をよりアクセシビリティとエンゲージメントを高める可能性を秘めているが、それらのブラックボックスの性質は倫理と安全に関する懸念を喚起する。
論文 参考訳(メタデータ) (2024-10-10T09:49:24Z) - In Generative AI we Trust: Can Chatbots Effectively Verify Political
Information? [39.58317527488534]
本稿では,2つの大規模言語モデル(LLM)ベースのチャットボットであるChatGPTとBing Chatの比較分析を行い,政治的情報の正確性を検出する。
AI監査手法を使用して、新型コロナウイルス、ロシアによるウクライナに対する攻撃、ホロコースト、気候変動、LGBTQ+関連の議論の5つのトピックについて、チャットボットが真、偽、および境界線をどう評価するかを調査する。
その結果, ベースライン精度評価タスクにおけるChatGPTの性能が向上し, 72%のケースが事前学習なしで言語平均で正しく評価された。
論文 参考訳(メタデータ) (2023-12-20T15:17:03Z) - Adding guardrails to advanced chatbots [5.203329540700177]
2022年11月にChatGPTがローンチされ、AIの新しい時代が到来した。
さまざまな仕事のために、人間がチャットボットに取って代わられるのではないか、という懸念はすでにある。
これらのバイアスは、異なるサブポピュレーションに対して重大な害および/または不平等を引き起こす可能性がある。
論文 参考訳(メタデータ) (2023-06-13T02:23:04Z) - A Deep Learning Approach to Integrate Human-Level Understanding in a
Chatbot [0.4632366780742501]
人間とは異なり、チャットボットは一度に複数の顧客にサービスを提供し、24/7で提供され、1秒以内で返信できる。
深層学習を用いて感情分析,感情検出,意図分類,名義認識を行い,人文的理解と知性を備えたチャットボットを開発した。
論文 参考訳(メタデータ) (2021-12-31T22:26:41Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。