論文の概要: GIANTS: Generative Insight Anticipation from Scientific Literature
- arxiv url: http://arxiv.org/abs/2604.09793v1
- Date: Fri, 10 Apr 2026 18:13:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.676619
- Title: GIANTS: Generative Insight Anticipation from Scientific Literature
- Title(参考訳): GIANTS: 科学文献からの創発的洞察
- Authors: Joy He-Yueya, Anikait Singh, Ge Gao, Michael Y. Li, Sherry Yang, Chelsea Finn, Emma Brunskill, Noah D. Goodman,
- Abstract要約: 本稿では、下流紙のコアインサイトを基礎となる親論文から予測する世代課題であるインサイト予測を導入する。
実測値と実測値の類似性を評価するLM判定器を用いてモデル評価を行い,これらの類似性スコアが有能な人間の評価値と相関していることを示す。
GIANTS-4Bは、強化学習(RL)を用いて訓練されたLMで、これらの類似度スコアをプロキシ報酬として用いた洞察予測を最適化する。
- 参考スコア(独自算出の注目度): 84.95947892931142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific breakthroughs often emerge from synthesizing prior ideas into novel contributions. While language models (LMs) show promise in scientific discovery, their ability to perform this targeted, literature-grounded synthesis remains underexplored. We introduce insight anticipation, a generation task in which a model predicts a downstream paper's core insight from its foundational parent papers. To evaluate this capability, we develop GiantsBench, a benchmark of 17k examples across eight scientific domains, where each example consists of a set of parent papers paired with the core insight of a downstream paper. We evaluate models using an LM judge that scores similarity between generated and ground-truth insights, and show that these similarity scores correlate with expert human ratings. Finally, we present GIANTS-4B, an LM trained via reinforcement learning (RL) to optimize insight anticipation using these similarity scores as a proxy reward. Despite its smaller open-source architecture, GIANTS-4B outperforms proprietary baselines and generalizes to unseen domains, achieving a 34% relative improvement in similarity score over gemini-3-pro. Human evaluations further show that GIANTS-4B produces insights that are more conceptually clear than those of the base model. In addition, SciJudge-30B, a third-party model trained to compare research abstracts by likely citation impact, predicts that insights generated by GIANTS-4B are more likely to lead to higher citations, preferring them over the base model in 68% of pairwise comparisons. We release our code, benchmark, and model to support future research in automated scientific discovery.
- Abstract(参考訳): 科学的なブレークスルーは、しばしば以前のアイデアを新しいコントリビューションに合成することから生じる。
言語モデル(LM)は科学的発見において有望であることを示しているが、この目的の合成を行う能力は未解明のままである。
本稿では、下流紙のコアインサイトを基礎となる親論文から予測する世代課題であるインサイト予測を導入する。
この能力を評価するために,8つの科学領域にわたる17kサンプルのベンチマークであるGiantsBenchを開発し,各サンプルは,下流紙のコアインサイトと組み合わせた親論文の集合からなる。
実測値と実測値の類似性を評価するLM判定器を用いてモデル評価を行い,これらの類似性スコアが有能な人間の評価値と相関していることを示す。
最後にGIANTS-4Bを提案する。これは強化学習(RL)を用いて訓練されたLMで、これらの類似度スコアをプロキシ報酬として用いた洞察予測を最適化する。
オープンソースアーキテクチャは小さいが、GIANTS-4Bはプロプライエタリなベースラインを上回り、目に見えないドメインに一般化し、gemini-3-proよりも34%の類似性スコアを達成している。
人間による評価は、GIANTS-4Bがベースモデルよりも概念的に明確な洞察を生み出すことを示している。
さらに、SciJudge-30Bという第三者モデルでは、GIANTS-4Bが生み出した洞察がより高い引用につながる可能性が高く、対比較の68%でベースモデルよりもそれらを好むと予測している。
私たちは、自動科学的発見における将来の研究を支援するために、コード、ベンチマーク、モデルをリリースします。
関連論文リスト
- Alien Science: Sampling Coherent but Cognitively Unavailable Research Directions from Idea Atoms [53.907293349123506]
大規模な言語モデルは、しばしば、現在のコミュニティにとって一貫性があり、無関心なアイデアを生み出すのに失敗する。
我々は、このギャップを認知的可用性によって形式化し、研究の方向性が典型的な研究者によって自然に提案される可能性について述べる。
我々は、原子の集合が実行可能な方向を構成するかどうかをスコアするコヒーレンスモデルと、その方向が生成される確率をスコアするアベイラビリティモデルという2つの補完モデルを学ぶ。
論文 参考訳(メタデータ) (2026-03-01T13:05:19Z) - RPC-Bench: A Fine-grained Benchmark for Research Paper Comprehension [65.81339691942757]
RPC-Bench(RPC-Bench)は、高品質なコンピュータサイエンス論文のレビュー・リビューの交換から構築された大規模質問応答ベンチマークである。
我々は、科学研究の流れに沿ったきめ細かい分類を設計し、モデルがなぜ、何、どのように学術的な文脈で質問するかを理解し、答える能力を評価する。
論文 参考訳(メタデータ) (2026-01-14T11:37:00Z) - Benchmark on Peer Review Toxic Detection: A Challenging Task with a New Dataset [6.106100820330045]
この研究は、ピアレビューにおける毒性の検出という、重要だが未調査の領域を探求する。
まず、4つの異なるカテゴリにわたるピアレビューの毒性を定義し、OpenReviewプラットフォームからピアレビューのデータセットをキュレートする。
我々は、専用毒性検出モデルや感情分析モデルなど、様々なモデルをベンチマークする。
論文 参考訳(メタデータ) (2025-02-01T23:01:39Z) - Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。
我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。
評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文 参考訳(メタデータ) (2024-12-12T21:29:00Z) - Large Language Models for Scholarly Ontology Generation: An Extensive Analysis in the Engineering Field [0.0]
本稿では,異なる研究トピック間の意味的関係を識別する大規模モデルの能力について分析する。
我々はそのタスクを評価するためにIEEE Thesaurusに基づく金の標準を開発した。
Mixtral-8x7B、Dolphin-Mistral、Claude 3-7Bなど、いくつかの優れた結果が得られた。
論文 参考訳(メタデータ) (2024-12-11T10:11:41Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。