論文の概要: Machines acquire scientific taste from institutional traces
- arxiv url: http://arxiv.org/abs/2603.16659v1
- Date: Tue, 17 Mar 2026 15:28:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.37089
- Title: Machines acquire scientific taste from institutional traces
- Title(参考訳): 機械は制度的痕跡から科学的嗜好を得る
- Authors: Ziqin Gong, Ning Li, Huaikang Zhou,
- Abstract要約: 論文発表決定における微調整言語モデルは,フロンティアモデルと人間の専門知識の両方に到達できない評価的判断を回復することを示す。
主要なプロプライエタリでオープンなアーキテクチャにまたがる11のフロンティアモデルが,チャンスをほとんど越えず,平均31%を達成しています。
長年の出版記録に基づいてトレーニングされた微調整されたモデルは、それぞれすべてのフロンティアモデルとエキスパートパネルを上回り、最高のシングルモデルは59%に達した。
- 参考スコア(独自算出の注目度): 2.048260436321718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial intelligence matches or exceeds human performance on tasks with verifiable answers, from protein folding to Olympiad mathematics. Yet the capacity that most governs scientific advance is not reasoning but taste: the ability to judge which untested ideas deserve pursuit, exercised daily by editors and funders but never successfully articulated, taught, or automated. Here we show that fine-tuning language models on journal publication decisions recovers evaluative judgment inaccessible to both frontier models and human expertise. Using a held-out benchmark of research pitches in management spanning four quality tiers, we find that eleven frontier models, spanning major proprietary and open architectures, barely exceed chance, averaging 31% accuracy. Panels of journal editors and editorial board members reach 42% by majority vote. Fine-tuned models trained on years of publication records each surpass every frontier model and expert panel, with the best single model achieving 59%. These models exhibit calibrated confidence, reaching 100% accuracy on their highest-confidence predictions, and transfer this evaluative signal to untrained pairwise comparisons and one-sentence summaries. The mechanism generalizes: models trained on economics publication records achieve 70% accuracy. Scientific taste was not missing from AI's reach; it was deposited in the institutional record, waiting to be extracted. These results provide a scalable mechanism to triage the expanding volume of scientific production across disciplines where quality resists formal verification.
- Abstract(参考訳): 人工知能は、タンパク質の折り畳みからオリンピアド数学まで、検証可能な答えを持つタスクにおいて人間のパフォーマンスと一致またはオーバーする。
テストされていないアイデアが追求に値するかを判断する能力は、編集者や資金提供者によって毎日行使されるが、調音、指導、自動化は成功しなかった。
ここでは,論文発表決定における微調整言語モデルがフロンティアモデルと人間の専門知識の両方に到達できない評価的判断を回復することを示す。
4つの品質階層にまたがるマネジメントにおける研究ピッチのベンチマークを用いて、主要なプロプライエタリかつオープンなアーキテクチャにまたがる11のフロンティアモデルが、チャンスをほとんど超え、平均31%の精度を持つことがわかった。
雑誌編集者と編集委員のパネルは多数決で42%に達した。
長年の出版記録に基づいてトレーニングされた微調整されたモデルは、それぞれすべてのフロンティアモデルとエキスパートパネルを上回り、最高のシングルモデルは59%に達した。
これらのモデルはキャリブレーションされた信頼度を示し、高い信頼度予測で100%精度に達し、この評価信号を訓練されていないペアワイズ比較と一文要約に転送する。
経済学の出版記録に基づいて訓練されたモデルは、70%の精度を達成する。
科学的な味はAIの範囲から逸脱せず、機関記録に保管され、抽出されるのを待っていた。
これらの結果は、品質が形式的検証に抵抗する分野にまたがる、科学的生産量の増大をトリアージするためのスケーラブルなメカニズムを提供する。
関連論文リスト
- Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models [108.26461635308796]
Rationale Consistencyは、モデルの推論プロセスと人間の判断のアライメントを定量化する、きめ細かい計量である。
我々のフロンティアモデルの評価では,最先端モデル間で合理的な一貫性が効果的に識別できることが示されている。
我々は、GenRMトレーニングの合理性一貫性と結果精度を組み合わせたハイブリッド信号を導入する。
論文 参考訳(メタデータ) (2026-02-04T15:24:52Z) - Trust Me, I'm an Expert: Decoding and Steering Authority Bias in Large Language Models [0.09085204695117637]
本研究では,言語モデルが支持者の認識する知識に基づいて,体系的バイアスを示すか否かを検討する。
我々の結果は、情報源の専門知識が増大するにつれて、モデルが不正確な/誤解を招く可能性がますます高まっていることを示している。
この権威バイアスは、モデル内に機械的に符号化され、モデルがバイアスから切り離される可能性があることを示す。
論文 参考訳(メタデータ) (2026-01-19T22:37:30Z) - SciArena: An Open Evaluation Platform for Foundation Models in Scientific Literature Tasks [87.29946641069068]
我々は,学術文献タスクの基礎モデルを評価するための,オープンで協調的なプラットフォームであるSciArenaを紹介する。
集合的知性を活用することで、SciArenaはコミュニティ主導の、オープンな科学的タスクにおけるモデルパフォーマンスの評価を提供する。
収集した嗜好データに基づいたメタ評価ベンチマークであるSciArena-Evalをリリースする。
論文 参考訳(メタデータ) (2025-07-01T17:51:59Z) - Atomic Reasoning for Scientific Table Claim Verification [83.14588611859826]
非専門家は、その高い情報密度と認識される信頼性のために、科学的表に基づく主張を誤解させるおそれがある。
既存のテーブルクレーム検証モデル、例えば最先端の大規模言語モデル(LLM)は、しばしば精密なきめ細かい推論に苦しむ。
認知負荷理論に触発されて、表に基づく主張を解釈するモデルの能力を高めるには、認知負荷を減らす必要がある。
論文 参考訳(メタデータ) (2025-06-08T02:46:22Z) - Predicting Empirical AI Research Outcomes with Language Models [27.148683265085012]
AI研究における有望なアイデアの多くは提供されないが、その検証には相当な人的労力と計算が必要だ。
このタスクの最初のベンチマークを構築し、LMと人間の専門家を比較します。
私たちはカンファレンス論文からアイデアと実験結果を取り除き、ベースモデルがテストの切り離し日後に公表された1,585人の人間による検証されたアイデアペアを生成しました。
我々は,精巧なGPT-4.1と紙検索エージェントを組み合わせたシステムを開発し,25人の人間専門家を雇って比較する。
NLP領域では、我々のシステムは人間の専門家を64.4%対48.で破る。
論文 参考訳(メタデータ) (2025-06-01T02:46:31Z) - When AI Co-Scientists Fail: SPOT-a Benchmark for Automated Verification of Scientific Research [19.97666809905332]
大規模言語モデル(LLM)は、AIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。
大規模言語モデル(LLM)の最近の進歩は、しばしばAIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。
論文 参考訳(メタデータ) (2025-05-17T05:45:16Z) - Findings of the BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [84.03928547166873]
子どもたちは1億ワード未満の入力から言語を習得できる。
大規模な言語モデルはデータ効率がはるかに低く、通常は3~4桁以上のデータを必要とするが、多くの評価において人間ほど性能は高くない。
BabyLM Challengeは、参加者が固定データ予算で言語モデルトレーニングを最適化するために競う共同作業である。
論文 参考訳(メタデータ) (2025-04-10T23:22:43Z) - Beyond human subjectivity and error: a novel AI grading system [67.410870290301]
オープンエンドの質問の格付けは、教育における高い努力と高いインパクトの課題である。
AI技術の最近のブレークスルーは、このような自動化を促進するかもしれないが、大規模に実証されていない。
本稿では,新しい自動短解階調システム(ASAG)を提案する。
論文 参考訳(メタデータ) (2024-05-07T13:49:59Z) - You Are the Best Reviewer of Your Own Papers: The Isotonic Mechanism [2.5336146096572745]
ノイズレビュースコアの精度を高めるためにイソトニックメカニズムを導入する。
複数の論文を提出した著者は、評価された品質の順に論文をランク付けする必要がある。
調整されたスコアは 生のスコアよりも正確です
論文 参考訳(メタデータ) (2022-06-14T14:35:53Z) - Measuring Massive Multitask Language Understanding [79.6985576698597]
このテストでは、基礎数学、アメリカの歴史、コンピュータ科学、法学など57のタスクをカバーしている。
最も大きなGPT-3モデルでは、ランダムな確率を平均20ポイント近く改善する。
モデルにはパフォーマンスの面もあるが、いつ間違っているかはよく分かっていない。
論文 参考訳(メタデータ) (2020-09-07T17:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。