論文の概要: RCTs & Human Uplift Studies: Methodological Challenges and Practical Solutions for Frontier AI Evaluation
- arxiv url: http://arxiv.org/abs/2603.11001v1
- Date: Wed, 11 Mar 2026 17:25:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:33.081424
- Title: RCTs & Human Uplift Studies: Methodological Challenges and Practical Solutions for Frontier AI Evaluation
- Title(参考訳): RCTs & Human Uplift Study: Methodological Challenges and Practical Solutions for Frontier AI Evaluation
- Authors: Patricia Paskov, Kevin Wei, Shen Zhou Hong, Dan Bateyko, Xavier Roberts-Gaal, Carson Ezell, Gailius Praninskas, Valerie Chen, Umang Bhatt, Ella Guest,
- Abstract要約: 人間アップリフト研究は、現状に対する人間のパフォーマンスにAIが与える影響を測定する。
これらの研究は、フロンティアAIシステムのデプロイメント、ガバナンス、安全性決定にますます役立っている。
これらの研究の基礎となる手法は確立されているが、フロンティアAIシステムの特徴的な性質との相互作用はいまだに過小評価されていない。
- 参考スコア(独自算出の注目度): 7.662976269800995
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human uplift studies - or studies that measure AI effects on human performance relative to a status quo, typically using randomized controlled trial (RCT) methodology - are increasingly used to inform deployment, governance, and safety decisions for frontier AI systems. While the methods underlying these studies are well-established, their interaction with the distinctive properties of frontier AI systems remains underexamined, particularly when results are used to inform high-stakes decisions. We present findings from interviews with 16 expert practitioners with experience conducting human uplift studies in domains including biosecurity, cybersecurity, education, and labor. Across interviews, experts described a recurring tension between standard causal inference assumptions and the object of study itself. Rapidly evolving AI systems, shifting baselines, heterogeneous and changing user proficiency, and porous real-world settings strain assumptions underlying internal, external, and construct validity, complicating the interpretation and appropriate use of uplift evidence. We synthesize these challenges across key stages of the human uplift research lifecycle and map them to practitioner-reported solutions, clarifying both the limits and the appropriate uses of evidence from human uplift studies in high-stakes decision-making.
- Abstract(参考訳): 人間アップリフト(Human Uplift)研究 - 現状に対する人間のパフォーマンスに対するAIの影響を測定する研究で、通常はランダム化制御トライアル(RCT)手法を用いている - は、フロンティアAIシステムへのデプロイメント、ガバナンス、安全性の決定を通知するために、ますます利用されている。
これらの研究の根底にある手法は確立されているが、フロンティアAIシステムの特異な特性との相互作用は、特に高い判断を下すために結果が使用される場合、過小評価されている。
バイオセキュリティ,サイバーセキュリティ,教育,労働などの分野において,人的アップリフト研究を経験した16名の専門家へのインタビューから得られた知見を報告する。
インタビューを通じて、専門家は標準的な因果推論の仮定と研究自体の目的との緊張が繰り返されていると説明した。
急速に進化するAIシステム、ベースラインのシフト、ヘテロジニアスなユーザ習熟度の変化、そして多孔質な現実世界の設定は、内部、外部、構成上の妥当性を前提としており、アップリフト証拠の解釈と適切な使用を複雑にしている。
我々は、これらの課題を、人間の隆起研究ライフサイクルの重要な段階にわたって合成し、それを実践者が報告したソリューションにマッピングし、高い意思決定における人間の隆起研究からの証拠の限界と適切な利用の両方を明確にする。
関連論文リスト
- Understanding Risk and Dependency in AI Chatbot Use from User Discourse [4.1957094635667875]
本稿では,2023年から2025年にかけての2つのコミュニティ,r/AIDangers と r/ChatbotAddiction から収集したポストを大規模に解析した。
14の反復的主題カテゴリーを同定し、5つの高次経験次元に合成する。
この結果から,実世界のユーザ談話に基礎を置くAI関連心理的リスクの5つの経験的次元が明らかとなった。
論文 参考訳(メタデータ) (2026-02-10T02:16:57Z) - Let the Barbarians In: How AI Can Accelerate Systems Performance Research [80.43506848683633]
我々は、この繰り返しサイクルを、AI駆動システム研究の生成、評価、洗練のサイクルと呼ぶ。
我々はADRSが生成するソリューションが人間の最先端の設計に適合し、さらに優れることを示した。
論文 参考訳(メタデータ) (2025-12-16T18:51:23Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - Measuring skill-based uplift from AI in a real biological laboratory [0.0]
我々は,AI推論モデルへのアクセスによって引き起こされるEmphskillsベースの隆起の大きさを実証的に測定しようとしたパイロット研究の結果を報告する。
これらの結果は,AIとグローバルバイオセキュリティの進化的関係に関する今後の研究の文脈において論じる。
論文 参考訳(メタデータ) (2025-10-29T16:34:57Z) - How Performance Pressure Influences AI-Assisted Decision Making [52.997197698288936]
我々は、プレッシャーと説明可能なAI(XAI)技術がAIアドバイステイク行動とどのように相互作用するかを示す。
我々の結果は、圧力とXAIの異なる組み合わせで複雑な相互作用効果を示し、AIアドバイスの行動を改善するか、悪化させるかのどちらかを示す。
論文 参考訳(メタデータ) (2024-10-21T22:39:52Z) - Towards Human-centered Explainable AI: A Survey of User Studies for Model Explanations [18.971689499890363]
我々は過去5年間に人間によるXAI評価で97コア論文を特定し分析してきた。
我々の研究は、XAIがレコメンダシステムなど特定のアプリケーション領域で急速に普及していることを示している。
我々は,XAI研究者や実践者を対象としたユーザスタディの設計と実施に関する実践的ガイドラインを提案する。
論文 参考訳(メタデータ) (2022-10-20T20:53:00Z) - Reinforcement Learning in Modern Biostatistics: Constructing Optimal Adaptive Interventions [6.9295094033607825]
強化学習(RL)は、健康関連意思決定問題において顕著な地位を獲得した。
しかし、実際の応用はまだ限られており、その可能性はまだ実現されていない。
論文 参考訳(メタデータ) (2022-03-04T23:14:02Z) - Decision Rule Elicitation for Domain Adaptation [93.02675868486932]
ヒトインザループ機械学習は、専門家からラベルを引き出すために人工知能(AI)で広く使用されています。
この作業では、専門家が意思決定を説明する決定ルールを作成できるようにします。
決定規則の適用はアルゴリズムのドメイン適応を改善し、専門家の知識をAIモデルに広めるのに役立つことを示す。
論文 参考訳(メタデータ) (2021-02-23T08:07:22Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。