論文の概要: Nonstandard Errors in AI Agents
- arxiv url: http://arxiv.org/abs/2603.16744v1
- Date: Tue, 17 Mar 2026 16:21:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.413319
- Title: Nonstandard Errors in AI Agents
- Title(参考訳): AIエージェントにおける非標準エラー
- Authors: Ruijiang Gao, Steven Chong Xiao,
- Abstract要約: 我々は、現在最先端のAIコーディングエージェントが、同じデータと研究質問を与えられた場合、同じ経験的結果をもたらすかどうかを調査する。
我々は,AIエージェントが,分析選択におけるエージェント対エージェントのばらつきから不確実な,大きさのテクスチノンスタンダードエラー(NSE)を示すことを発見した。
これらの発見は、自動政策評価と実証研究におけるAIの利用の増加に影響を及ぼす。
- 参考スコア(独自算出の注目度): 6.890249567932368
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study whether state-of-the-art AI coding agents, given the same data and research question, produce the same empirical results. Deploying 150 autonomous Claude Code agents to independently test six hypotheses about market quality trends in NYSE TAQ data for SPY (2015--2024), we find that AI agents exhibit sizable \textit{nonstandard errors} (NSEs), that is, uncertainty from agent-to-agent variation in analytical choices, analogous to those documented among human researchers. AI agents diverge substantially on measure choice (e.g., autocorrelation vs.\ variance ratio, dollar vs.\ share volume). Different model families (Sonnet 4.6 vs.\ Opus 4.6) exhibit stable ``empirical styles,'' reflecting systematic differences in methodological preferences. In a three-stage feedback protocol, AI peer review (written critiques) has minimal effect on dispersion, whereas exposure to top-rated exemplar papers reduces the interquartile range of estimates by 80--99\% within \textit{converging} measure families. Convergence occurs both through within-family estimation tightening and through agents switching measure families entirely, but convergence reflects imitation rather than understanding. These findings have implications for the growing use of AI in automated policy evaluation and empirical research.
- Abstract(参考訳): 我々は、現在最先端のAIコーディングエージェントが、同じデータと研究質問を与えられた場合、同じ経験的結果をもたらすかどうかを調査する。
150個の自律クロードコードエージェントを配置して、NYSE TAQデータにおけるSPY(2015-2024)の市場品質トレンドに関する6つの仮説を独立に検証し、AIエージェントがサイズ可能な \textit{nonstandard error} (NSEs) を示すことを発見した。
AIエージェントは、測定選択(例えば、自己相関対)に大きく依存する。
\ variance ratio, dollar vs。
シェアボリューム)。
異なるモデルファミリー(Sonnet 4.6 vs.)。
\ Opus 4.6)は、系統的な方法論的嗜好の違いを反映した安定な「経験的スタイル」を示す。
3段階のフィードバックプロトコルでは、AIピアレビュー(批判書)は分散に最小限の影響しか与えないのに対し、上位級の論文への露出は、家族を測る「textit{converging}測度」において、中間的な推定範囲を80-99\%削減する。
収束は、家族内推定の締め付けと、測定された家族を完全に切り替えるエージェントを通して起こるが、収束は理解するよりも模倣を反映する。
これらの発見は、自動政策評価と実証研究におけるAIの利用の増加に影響を及ぼす。
関連論文リスト
- ResearchGym: Evaluating Language Model Agents on Real-World AI Research [48.46915933681714]
我々は、エンドツーエンドの研究においてAIエージェントを評価するためのベンチマークおよび実行環境であるResearchGymを紹介する。
これを実現するために,ICML,ICLR,ACLの5つの口頭およびスポットライト論文を再利用した。
GPT-5を動力とするエージェントの制御評価において、我々は鋭い能力-信頼性ギャップを観察する。
論文 参考訳(メタデータ) (2026-02-16T19:00:03Z) - Toward Quantitative Modeling of Cybersecurity Risks Due to AI Misuse [50.87630846876635]
我々は9つの詳細なサイバーリスクモデルを開発する。
各モデルはMITRE ATT&CKフレームワークを使用して攻撃をステップに分解する。
個々の見積もりはモンテカルロシミュレーションによって集約される。
論文 参考訳(メタデータ) (2025-12-09T17:54:17Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - Scalable, Symbiotic, AI and Non-AI Agent Based Parallel Discrete Event Simulations [0.0]
本稿では,複数のAIエージェントと非AIエージェントを組み合わせた並列離散イベントシミュレーション(PDES)手法を提案する。
我々は、4つの異なるドメインから4つの問題を解き、その結果をAIモデルだけで比較することで、我々のアプローチを評価する。
その結果,バニラモデルの精度が23%未満であるため,アプローチ全体の精度は68%であった。
論文 参考訳(メタデータ) (2025-05-28T17:50:01Z) - Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。
現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。
情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-03-21T18:06:28Z) - Designing AI-Agents with Personalities: A Psychometric Approach [2.854338743097065]
本稿では,定量的かつ心理学的に検証された個人性をAIエージェントに割り当てる手法を提案する。
3つの研究で実現可能性と限界を評価した。
論文 参考訳(メタデータ) (2024-10-25T01:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。