論文の概要: Assessing Generative AI value in a public sector context: evidence from a field experiment
- arxiv url: http://arxiv.org/abs/2502.09479v1
- Date: Thu, 13 Feb 2025 16:43:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:47:11.537806
- Title: Assessing Generative AI value in a public sector context: evidence from a field experiment
- Title(参考訳): 公共セクターにおける生成AI価値の評価--フィールド実験から
- Authors: Trevor Fitzpatrick, Seamus Kelly, Patrick Carey, David Walsh, Ruairi Nugent,
- Abstract要約: 文書理解とデータ分析に関連する2種類の複合タスクの混合証拠が得られた。
ドキュメントタスクでは,Gen AIを用いた治療群は,回答品質スコアが17%,タスク完了時間が34%向上した。
データタスクでは、Gen AI治療群は品質スコアが12%低下し、コントロール群と比較して平均完了時間に有意な差は認められなかった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The emergence of Generative AI (Gen AI) has motivated an interest in understanding how it could be used to enhance productivity across various tasks. We add to research results for the performance impact of Gen AI on complex knowledge-based tasks in a public sector setting. In a pre-registered experiment, after establishing a baseline level of performance, we find mixed evidence for two types of composite tasks related to document understanding and data analysis. For the Documents task, the treatment group using Gen AI had a 17% improvement in answer quality scores (as judged by human evaluators) and a 34% improvement in task completion time compared to a control group. For the Data task, we find the Gen AI treatment group experienced a 12% reduction in quality scores and no significant difference in mean completion time compared to the control group. These results suggest that the benefits of Gen AI may be task and potentially respondent dependent. We also discuss field notes and lessons learned, as well as supplementary insights from a post-trial survey and feedback workshop with participants.
- Abstract(参考訳): Generative AI(Gen AI)の出現は、さまざまなタスクにおける生産性向上にどのように使用できるのかを理解することへの関心を動機付けている。
我々は、パブリックセクター環境での複雑な知識に基づくタスクに対するGen AIのパフォーマンスへの影響について、研究結果に追加する。
事前登録実験では, 文書理解とデータ分析に関連する2種類の複合タスクについて, 基礎的な性能レベルを確立した上で, 混在する証拠を見出した。
ドキュメントタスクでは,Gen AIを用いた治療群は,回答品質スコアが17%向上し(人間評価者によって判断される),タスク完了時間がコントロール群に比べて34%向上した。
データタスクでは、Gen AI治療群は品質スコアが12%低下し、コントロール群と比較して平均完了時間に有意な差は認められなかった。
これらの結果は、Gen AIの利点はタスクであり、潜在的に応答性に依存していることを示唆している。
また,フィールドノートや教訓についても論じるとともに,受験後の調査やフィードバックワークショップからの補助的洞察も議論する。
関連論文リスト
- Raising the Stakes: Performance Pressure Improves AI-Assisted Decision Making [57.53469908423318]
日常の人が共通のAI支援タスクを完了すると、パフォーマンスプレッシャーがAIアドバイスへの依存に与える影響を示す。
利害関係が高い場合には、AIの説明の有無にかかわらず、利害関係が低い場合よりもAIアドバイスを適切に使用することが分かりました。
論文 参考訳(メタデータ) (2024-10-21T22:39:52Z) - How much does AI impact development speed? An enterprise-based randomized controlled trial [8.759453531975668]
複雑なエンタープライズレベルのタスクに開発者が費やす時間に対する3つのAI機能の影響を見積もる。
また、コード関連のアクティビティに1日あたり何時間も費やす開発者は、AIがより速くなるという興味深い効果も見出しました。
論文 参考訳(メタデータ) (2024-10-16T18:31:14Z) - CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark [11.794931453828974]
CORE-Benchは3つの分野(コンピュータ科学、社会科学、医学)にわたる90の科学論文に基づく270のタスクからなるベンチマークである。
エージェントの精度を高速かつ並列に測定する評価システムを提案する。
最高のエージェントは、最も難しいタスクにおいて21%の精度を達成した。
論文 参考訳(メタデータ) (2024-09-17T17:13:19Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - GAIA: Rethinking Action Quality Assessment for AI-Generated Videos [56.047773400426486]
アクション品質アセスメント(AQA)アルゴリズムは、主に実際の特定のシナリオからのアクションに焦点を当て、規範的なアクション機能で事前訓練されている。
我々は,新たな因果推論の観点から大規模主観評価を行うことにより,GAIAを構築した。
その結果、従来のAQA手法、最近のT2Vベンチマークにおけるアクション関連指標、メインストリームビデオ品質手法は、それぞれ0.454、0.191、0.519のSRCCで性能が良くないことがわかった。
論文 参考訳(メタデータ) (2024-06-10T08:18:07Z) - Experimental Evidence on Negative Impact of Generative AI on Scientific
Learning Outcomes [0.0]
AIを要約に使用することで、品質と出力の両方が大幅に改善された。
読書のトピックと優れた読み書きスキルに強い背景を持つ人は、最も有益であった。
論文 参考訳(メタデータ) (2023-09-23T21:59:40Z) - ADVISE: AI-accelerated Design of Evidence Synthesis for Global
Development [2.6293574825904624]
本研究では、変換器(BERT)モデルからの双方向エンコーダ表現に基づくAIエージェントを開発する。
本稿では,人間とAIのハイブリッドチームによるエビデンス合成プロセスの促進効果について検討する。
その結果、BERTベースのAIエージェントを人間チームに組み込むことで、人間のスクリーニングの労力を68.5%削減できることがわかった。
論文 参考訳(メタデータ) (2023-05-02T01:29:53Z) - A Reinforcement Learning-assisted Genetic Programming Algorithm for Team
Formation Problem Considering Person-Job Matching [70.28786574064694]
解の質を高めるために強化学習支援遺伝的プログラミングアルゴリズム(RL-GP)を提案する。
効率的な学習を通じて得られる超ヒューリスティックなルールは、プロジェクトチームを形成する際の意思決定支援として利用することができる。
論文 参考訳(メタデータ) (2023-04-08T14:32:12Z) - Advancing Human-AI Complementarity: The Impact of User Expertise and
Algorithmic Tuning on Joint Decision Making [10.890854857970488]
ユーザのドメイン知識、AIシステムのメンタルモデル、レコメンデーションへの信頼など、多くの要因がヒューマンAIチームの成功に影響を与える可能性がある。
本研究は,非自明な血管ラベル作成作業において,血管が流れているか停止しているかを被験者に示すことを目的とした。
以上の結果から,AI-Assistantからの推薦はユーザの意思決定に役立つが,AIに対するユーザベースラインのパフォーマンスや,AIエラー型の相補的チューニングといった要因は,チーム全体のパフォーマンスに大きな影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2022-08-16T21:39:58Z) - An Exploration of Post-Editing Effectiveness in Text Summarization [58.99765574294715]
AI生成テキストの"ポスト編集"は、人間の作業量を削減し、AI出力の品質を改善する。
編集後提供した要約と,要約品質,人的効率,ユーザエクスペリエンスのマニュアル要約を比較した。
本研究は,テキスト要約にポスト編集がいつ有用かについて,貴重な知見を提示する。
論文 参考訳(メタデータ) (2022-06-13T18:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。