論文の概要: HindSight: Evaluating Research Idea Generation via Future Impact
- arxiv url: http://arxiv.org/abs/2603.15164v1
- Date: Mon, 16 Mar 2026 11:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.193321
- Title: HindSight: Evaluating Research Idea Generation via Future Impact
- Title(参考訳): HindSight: 将来のインパクトによる研究のアイデア生成の評価
- Authors: Bo Jiang,
- Abstract要約: 提案するhsは,現実の出版物に対して生成したアイデアをマッチングすることで,アイデアの質を計測する時間分割評価フレームワークである。
hs スコアは LLM-judged novelty と自負的に相関しており、LLM が実際の研究で実現されない新規音のアイデアを体系的に過大評価していることを示唆している。
- 参考スコア(独自算出の注目度): 5.647839536820347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating AI-generated research ideas typically relies on LLM judges or human panels -- both subjective and disconnected from actual research impact. We introduce \hs{}, a time-split evaluation framework that measures idea quality by matching generated ideas against real future publications and scoring them by citation impact and venue acceptance. Using a temporal cutoff~$T$, we restrict an idea generation system to pre-$T$ literature, then evaluate its outputs against papers published in the subsequent 30 months. Experiments across 10 AI/ML research topics reveal a striking disconnect: LLM-as-Judge finds no significant difference between retrieval-augmented and vanilla idea generation ($p{=}0.584$), while \hs{} shows the retrieval-augmented system produces 2.5$\times$ higher-scoring ideas ($p{<}0.001$). Moreover, \hs{} scores are \emph{negatively} correlated with LLM-judged novelty ($ρ{=}{-}0.29$, $p{<}0.01$), suggesting that LLMs systematically overvalue novel-sounding ideas that never materialize in real research.
- Abstract(参考訳): AIが生み出す研究のアイデアを評価するには、通常、LLMの審査員や人間のパネルに依存します。
このフレームワークは、生成したアイデアを実際の出版物とマッチングし、引用効果と会場受け入れによって評価することで、アイデアの質を計測する。
時間的カットオフ~$T$を用いて、アイデア生成システムを$T$以前の文献に制限し、その後30ヶ月で発行された論文に対して出力を評価する。
LLM-as-Judgeは、検索強化されたアイデア生成(p{=}0.584$)とバニラアイデア生成(p{=}0.584$)の間に有意な違いはないが、検索強化されたシステムは2.5$\times$高スコアのアイデア(p{<}0.001$)を生成する。
さらに、 \hs{} のスコアは LLM-judged novelty (ρ{=}{-}0.29$, $p{<}0.01$) と相関している。
関連論文リスト
- The Ideation-Execution Gap: Execution Outcomes of LLM-Generated versus Human Research Ideas [90.26363107905344]
良いアイデアは単に斬新なものではなく、実行後により良い研究がもたらされるべきである。
AIが生み出すアイデアがより良い研究成果をもたらすかどうかをテストするために、我々は実行研究を行う。
実行前後の同じアイデアのレビュースコアを比較すると、LLM生成のアイデアのスコアは専門家によるアイデアよりも大幅に減少する。
論文 参考訳(メタデータ) (2025-06-25T19:47:23Z) - Harnessing Large Language Models for Scientific Novelty Detection [49.10608128661251]
科学的ノベルティ検出(ND)のための大規模言語モデル(LLM)を提案する。
そこで本研究では,LLMからアイデアレベルの知識を抽出し,ライトウェイトなレトリバーを訓練することを提案する。
実験の結果,提案手法は,アイデア検索やNDタスクのためのベンチマークデータセットにおいて,常に他よりも優れていた。
論文 参考訳(メタデータ) (2025-05-30T14:08:13Z) - All That Glitters is Not Novel: Plagiarism in AI Generated Research [15.246406031450775]
このような研究資料のかなりの部分は、巧妙に盗用されている。
専門家らは、50ドルの評価された研究資料のうち24%を、言い換えられるか、あるいは既存の研究からかなり借用されていると特定している。
残りの76%のドキュメントは、既存の作品と異なるレベルの類似性を示しており、ごくわずかしか全く新しいものではない。
論文 参考訳(メタデータ) (2025-02-23T08:00:33Z) - Don't Get Lost in the Trees: Streamlining LLM Reasoning by Overcoming Tree Search Exploration Pitfalls [83.89771461061903]
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。
意味論的に等価なコンテンツを持つ冗長な状態による$textitover-Exploration$と、検証器のスコアリングにおける高いばらつきに起因する$textitunder-Exploration$である。
各種木探索アルゴリズムに適合するフレキシブルなプラグアンドプレイシステムであるFETCHを提案する。
論文 参考訳(メタデータ) (2025-02-16T16:12:01Z) - LitLLMs, LLMs for Literature Review: Are we there yet? [15.785989492351684]
本稿では,近年の大規模言語モデルのゼロショット能力について,要約に基づく文献レビューの執筆支援について考察する。
まず LLM を用いて,論文の要約から意味のあるキーワードを抽出する新しい2段階探索手法を提案する。
生成段階では、まずレビューの計画を概説し、次に実際のレビューを生成するためのステップを実行する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-15T01:12:26Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。