論文の概要: The Ideation Bottleneck: Decomposing the Quality Gap Between AI-Generated and Human Economics Research
- arxiv url: http://arxiv.org/abs/2604.03338v1
- Date: Fri, 03 Apr 2026 07:47:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.524114
- Title: The Ideation Bottleneck: Decomposing the Quality Gap Between AI-Generated and Human Economics Research
- Title(参考訳): AI生成と人間経済学研究の質ギャップを分解するボトルネックの構想
- Authors: Ning Li,
- Abstract要約: 本稿では,品質ギャップを,研究アイデアの品質と実行品質の2つの独立した構成要素に分解する。
出版決定に基づいて訓練された微調整言語モデルの2モデルアンサンブルを用いて、アイデア品質と包括的6次元ルーブリックを評価する。
私たちは、AI論文の74%が差分差分を採用しており、両方のアイデアの実行品質について、中央値の人間論文を同時に上回る7つのAI論文しかありません。
- 参考スコア(独自算出の注目度): 2.7195546721965287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous AI systems can now generate complete economics research papers, but they substantially underperform human-authored publications in head-to-head comparisons. This paper decomposes the quality gap into two independent components: research idea quality and execution quality. Using a two-model ensemble of fine-tuned language models trained on publication decisions (Gong, Li, and Zhou, 2026) to evaluate idea quality and a comprehensive six-dimension rubric assessed by Gemini 3.1 Flash Lite -- the same model family used as the APE tournament judge, ensuring methodological consistency -- to evaluate execution quality, we analyze 953 economics papers -- 912 AI-generated papers from the APE project and 41 human papers published in the American Economic Review and AEJ: Economic Policy. The idea quality gap is large (Cohen's d = 2.23, p < 0.001), with human papers achieving 47.1% mean ensemble exceptional probability versus 16.5% for AI. The execution quality gap is also significant but smaller (d = 0.90, p < 0.001), with human papers scoring 4.38/5.0 versus 3.84. Idea quality accounts for approximately 71% of the overall quality difference, with execution contributing 29%. The largest execution weakness is mechanism analysis depth (d = 1.43); no significant difference is found on robustness. We document that 74% of AI papers employ difference-in-differences, and only 7 AI papers (0.8%) surpass the median human paper on both idea and execution quality simultaneously. The primary bottleneck to competitive AI-generated economics research remains ideation.
- Abstract(参考訳): 自律型AIシステムは、完全な経済研究論文を作成できるようになったが、人間による論文の直接比較では、かなり性能が劣っている。
本稿では,品質ギャップを,研究アイデアの品質と実行品質の2つの独立した構成要素に分解する。
Gong, Li, Zhou, 2026) で訓練された微調整言語モデルの2つのモデルアンサンブルを用いて、アイデアの品質を評価し、Gemini 3.1 Flash Liteによって評価された包括的な6次元のルーブリック(APEトーナメントの審査で使用されるのと同じモデルファミリーで、方法論的整合性を保証する)を使用して、実行品質を評価し、953の経済論文(APEプロジェクトから912のAI生成論文と、American Economic Review and AEJ: Economic Policyに掲載された41の人間論文を分析します。
概念の質格差は大きい(コーエンのd = 2.23, p < 0.001)が、人間の論文では47.1%が例外的な確率で、AIでは16.5%である。
実行品質のギャップも大きいが(d = 0.90, p < 0.001)、人間の論文は3.84に対して4.38/5.0である。
理想的な品質は全体的な品質差の約71%を占め、実行は29%に寄与する。
最大の実行弱点はメカニズム解析の深さ(d = 1.43)であり、ロバスト性には大きな違いは見つからない。
私たちは、AI論文の74%が差分差分を採用しており、7つのAI論文(0.8%)が、アイデアと実行品質の両面において、中央値の人間論文を同時に上回っていることを文書化しています。
競争力のあるAIによる経済研究の最大のボトルネックは、依然として考えられている。
関連論文リスト
- Generative AI Use in Professional Graduate Thesis Writing: Adoption, Perceived Outcomes, and the Role of a Research-Specialized Agent [0.0]
MBA学生83名における生成AI利用実態調査
95.2%は少なくとも何らかの用途と77.1%の重用を報告している。
学生は研究書記のワークフロー全体にわたってAIに取り組みました。
論文 参考訳(メタデータ) (2026-04-03T06:58:22Z) - Nonstandard Errors in AI Agents [6.890249567932368]
我々は、現在最先端のAIコーディングエージェントが、同じデータと研究質問を与えられた場合、同じ経験的結果をもたらすかどうかを調査する。
我々は,AIエージェントが,分析選択におけるエージェント対エージェントのばらつきから不確実な,大きさのテクスチノンスタンダードエラー(NSE)を示すことを発見した。
これらの発見は、自動政策評価と実証研究におけるAIの利用の増加に影響を及ぼす。
論文 参考訳(メタデータ) (2026-03-17T16:21:22Z) - RPC-Bench: A Fine-grained Benchmark for Research Paper Comprehension [65.81339691942757]
RPC-Bench(RPC-Bench)は、高品質なコンピュータサイエンス論文のレビュー・リビューの交換から構築された大規模質問応答ベンチマークである。
我々は、科学研究の流れに沿ったきめ細かい分類を設計し、モデルがなぜ、何、どのように学術的な文脈で質問するかを理解し、答える能力を評価する。
論文 参考訳(メタデータ) (2026-01-14T11:37:00Z) - NAIPv2: Debiased Pairwise Learning for Efficient Paper Quality Estimation [58.30936615525824]
本稿では,紙の品質評価のための非バイアスで効率的なフレームワークであるNAIPv2を提案する。
NAIPv2は、レビューアレーティングの不整合を低減するために、ドメイン年グループ内でペアワイズ学習を採用している。
これはペアワイズ比較に基づいてトレーニングされるが、デプロイ時に効率的なポイントワイズ予測を可能にする。
論文 参考訳(メタデータ) (2025-09-29T17:59:23Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - Can AI Solve the Peer Review Crisis? A Large Scale Cross Model Experiment of LLMs' Performance and Biases in Evaluating over 1000 Economics Papers [25.2441171957968]
本研究では,大規模言語モデル(LLM)による学術的査読プロセスの強化の可能性について,系統的バイアスを伴わずに,経済研究の質を確実に評価することによって検討する。
2つの相補的な実験で4つのLLMの大規模評価を行った。
我々は、GPT、Gemma、LLaMAが、匿名で提示された同じ論文に対して、上位の男性作家やエリート機関からの投稿に対して、かなり高い評価を割り当てていることを発見した。
論文 参考訳(メタデータ) (2025-01-31T04:04:02Z) - AIGIQA-20K: A Large Database for AI-Generated Image Quality Assessment [54.93996119324928]
AIGIQA-20Kとして知られる2万のAIGIと420,000の主観評価を備えた、これまでで最大のAIGI主観的品質データベースを作成します。
このデータベース上でベンチマーク実験を行い、16の主流AIGI品質モデルと人間の知覚との対応性を評価する。
論文 参考訳(メタデータ) (2024-04-04T12:12:24Z) - Improving Task Instructions for Data Annotators: How Clear Rules and Higher Pay Increase Performance in Data Annotation in the AI Economy [0.0]
AIアプリケーションの世界的急増は、業界を変革させ、既存の雇用の移動と補完を招きつつ、新たな雇用機会を生み出している。
人間の作業員による画像のラベル付けやテキストの注釈付けを含むデータアノテーションは、データセットの品質に直接影響を与える。
本稿では,データアノテーションの経済性に着目し,タスク・インストラクションの設計と金銭的インセンティブがデータ品質とコストに与える影響に着目した。
論文 参考訳(メタデータ) (2023-12-22T09:50:57Z) - Using Sampling to Estimate and Improve Performance of Automated Scoring
Systems with Guarantees [63.62448343531963]
本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。
比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
論文 参考訳(メタデータ) (2021-11-17T05:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。