論文の概要: SoundnessBench: Can Your AI Scientist Really Tell Good Research Ideas from Bad Ones?
- arxiv url: http://arxiv.org/abs/2605.30329v1
- Date: Thu, 28 May 2026 17:57:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.740293
- Title: SoundnessBench: Can Your AI Scientist Really Tell Good Research Ideas from Bad Ones?
- Title(参考訳): SoundnessBench:あなたのAI科学者は、悪いものから良い研究のアイデアを語れるのか?
- Authors: Sy-Tuyen Ho, Minghui Liu, Huy Nghiem, Furong Huang,
- Abstract要約: 我々は、ICLRの投稿から再構成された1,099の機械学習研究提案のキュレートされたベンチマークであるSoundnessBenchを紹介する。
SoundnessBenchは、完全なレビュー結果の正確な予測よりも、復元可能な提案段階の音質のベンチマークとして解釈されるべきである。
- 参考スコア(独自算出の注目度): 51.154921661608675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous AI research agents aim to accelerate scientific discovery by automating the research pipeline, from hypothesis generation to peer review. However, existing benchmarks rarely test a fundamental bottleneck: whether Large Language Models can judge the methodological viability of a research idea before expending time and computational resources. We introduce SoundnessBench, a curated benchmark of 1,099 machine-learning research proposals reconstructed from ICLR submissions, labeled with reviewer soundness sub-scores, and audited against source papers. SoundnessBench should be interpreted as a benchmark for recoverable proposal-stage soundness rather than exact prediction of full-paper review outcomes. Across 12 frontier LLMs, we find a pervasive optimism bias: under standard prompting, models frequently rate low-soundness proposals as sound, while aggressive prompting largely shifts errors from false positives to false negatives. Additional controls for public-corpus contamination, paper-identifying phrases, surface features, and human audit quality suggest that this behavior is not explained by a single confounder. Our results indicate that current LLMs are not yet reliable as standalone first-gate evaluators for scientific rigor.
- Abstract(参考訳): 自律的なAI研究エージェントは、仮説生成からピアレビューまで、研究パイプラインを自動化して科学的発見を加速することを目指している。
しかし、既存のベンチマークは、時間と計算資源を浪費する前に研究アイデアの方法論的生存性を判断できるかどうかという、基本的なボトルネックをテストすることは滅多にない。
我々は、ICLRの投稿から再構成された1,099の機械学習研究提案のキュレートされたベンチマークであるSoundnessBenchを紹介し、レビュアーの音質サブスコアをラベル付けし、ソース論文に対する監査を行った。
SoundnessBenchは、完全なレビュー結果の正確な予測よりも、復元可能な提案段階の音質のベンチマークとして解釈されるべきである。
標準的なプロンプトでは、モデルはしばしば低音質の提案を音として評価し、アグレッシブなプロンプトは誤りを偽陽性から偽陰性に大きくシフトする。
公衆コーパスの汚染、紙の識別フレーズ、表面の特徴、人間の監査品質に対する追加の制御は、この振る舞いが1人の共同創設者によって説明されないことを示唆している。
以上の結果から,現在のLCMは科学的厳格化のためのスタンドアローンファーストゲート評価器として信頼性が低いことが示唆された。
関連論文リスト
- Understanding and Mitigating Spurious Signal Amplification in Test-Time Reinforcement Learning for Math Reasoning [37.981949917083746]
テスト時強化学習(TTRL)は常に擬似ラベルによる推論時にモデルを適応させる。
本稿では,突発的なシグナルを緩和する統合フレームワークであるDebiased and Denoised test-time Reinforcement Learningを提案する。
論文 参考訳(メタデータ) (2026-04-23T06:32:08Z) - Learning to Predict Future-Aligned Research Proposals with Language Models [59.79457676644722]
我々は目標から得られた17,771の論文とそれらの事前カットオフ引用の時間一貫性のあるデータセットを構築した。
モデルをトレーニングするために、ターゲットとそれらのカットオフ前の引用から17,771枚のタイム一貫性のあるデータセットを構築します。
Llama-3.1 と Qwen2.5 のモデル全体で、将来のアライメントチューニングは、非アライメントベースラインに対する将来のアライメントを改善する。
論文 参考訳(メタデータ) (2026-03-28T05:41:15Z) - Proof of Time: A Benchmark for Evaluating Scientific Idea Judgments [12.46263502996029]
PoTは、大規模言語モデルのための半検証可能なベンチマークフレームワークである。
科学的観念判断と下流の信号とを結びつけ、後に観測可能となる。
PoTは将来の科学的思考判断タスクにおけるエージェントのスケーラブルな評価をサポートする。
論文 参考訳(メタデータ) (2026-01-12T14:55:37Z) - Pre-review to Peer review: Pitfalls of Automating Reviews using Large Language Models [1.8349858105838042]
大規模言語モデルは汎用的な汎用タスクソルバであり、その能力は学術的にピアレビューを行う人たちをテキストプレビューエージェントとして真に支援することができる。
非常に有益ではあるが、学術的ピアレビューの自動化は、概念として、安全性、研究の完全性、学術的ピアレビュープロセスの妥当性に関する懸念を提起する。
論文 参考訳(メタデータ) (2025-12-14T09:56:07Z) - GEAR: A General Evaluation Framework for Abductive Reasoning [21.08814504507274]
GEAR(General Evaluation for Abductive Reasoning)は、汎用的で、完全に自動化され、透明で、ラベルのない評価パラダイムである。
GEARは、仮説セットを3つの指標でスコア付けする: 一貫性(それぞれの仮説が観察を説明する)、一般化可能性(一貫性のある仮説は目に見えない入力について有意義な予測をする)、多様性(セットは異なる予測とパターンをカバーしている)。
論文 参考訳(メタデータ) (2025-09-28T22:22:28Z) - Automatic Evaluation Metrics for Artificially Generated Scientific Research [3.9845810840390743]
本研究では,2つの自動評価指標,特に引用数予測とレビュースコア予測について検討する。
本研究の結果から, 引用数予測はレビュースコア予測よりも有効であり, 完全論文より純粋にスコア予測が困難であることが判明した。
論文 参考訳(メタデータ) (2025-02-14T14:56:14Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Neural Importance Sampling for Rapid and Reliable Gravitational-Wave
Inference [59.040209568168436]
まず、ニューラルネットワークを用いてベイズ後部への高速な提案を行い、その基礎となる可能性と事前に基づいて重み付けを行う。
本発明は,(1)ネットワーク不正確性のない修正後部,(2)提案案の評価と故障事例の同定のための性能診断(サンプル効率),(3)ベイズ証拠の偏りのない推定を提供する。
LIGOとVirgoで観測された42個のブラックホールをSEOBNRv4PHMとIMRPhenomHMXP波形モデルで解析した。
論文 参考訳(メタデータ) (2022-10-11T18:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。