論文の概要: AI Idea Bench 2025: AI Research Idea Generation Benchmark
- arxiv url: http://arxiv.org/abs/2504.14191v1
- Date: Sat, 19 Apr 2025 05:35:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 04:23:14.867592
- Title: AI Idea Bench 2025: AI Research Idea Generation Benchmark
- Title(参考訳): AI Idea Bench 2025: AI Research Idea Generation Benchmark
- Authors: Yansheng Qiu, Haoquan Zhang, Zhaopan Xu, Ming Li, Diping Song, Zheng Wang, Kaipeng Zhang,
- Abstract要約: 本稿では,言語モデル(LLM)が生み出すアイデアを定量的に評価し,比較するフレームワークであるAI Idea Bench 2025を紹介する。
このフレームワークは、3,495のAI論文とその関連するインスパイアされた作業の包括的なデータセットと、堅牢な評価方法論で構成されている。
評価システムは、2次元のアイデア品質を測る。
- 参考スコア(独自算出の注目度): 10.983418515389667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale Language Models (LLMs) have revolutionized human-AI interaction and achieved significant success in the generation of novel ideas. However, current assessments of idea generation overlook crucial factors such as knowledge leakage in LLMs, the absence of open-ended benchmarks with grounded truth, and the limited scope of feasibility analysis constrained by prompt design. These limitations hinder the potential of uncovering groundbreaking research ideas. In this paper, we present AI Idea Bench 2025, a framework designed to quantitatively evaluate and compare the ideas generated by LLMs within the domain of AI research from diverse perspectives. The framework comprises a comprehensive dataset of 3,495 AI papers and their associated inspired works, along with a robust evaluation methodology. This evaluation system gauges idea quality in two dimensions: alignment with the ground-truth content of the original papers and judgment based on general reference material. AI Idea Bench 2025's benchmarking system stands to be an invaluable resource for assessing and comparing idea-generation techniques, thereby facilitating the automation of scientific discovery.
- Abstract(参考訳): 大規模言語モデル(LLM)は人間とAIの相互作用に革命をもたらし、新しいアイデアを生み出す上で大きな成功を収めた。
しかし、現在のアイデア生成の評価では、LLMの知識リーク、根拠となる真理を持つオープンエンドベンチマークの欠如、即時設計に制約された実現可能性分析の範囲の制限など、重要な要素を見落としている。
これらの制限は、画期的な研究のアイデアを明らかにする可能性を妨げている。
本稿では,LLMが生み出すアイデアを,多様な観点から定量的に評価し,比較するフレームワークであるAI Idea Bench 2025を提案する。
このフレームワークは、3,495のAI論文とその関連するインスパイアされた作業の包括的なデータセットと、堅牢な評価方法論で構成されている。
本評価システムは,2次元のアイデア品質を,原論文の基幹内容との整合性と一般的な基準資料に基づく判断の2つの次元で評価する。
AI Idea Bench 2025のベンチマークシステムは、アイデア生成技術の評価と比較のための貴重なリソースであり、科学的な発見の自動化を容易にする。
関連論文リスト
- ReviewEval: An Evaluation Framework for AI-Generated Reviews [9.35023998408983]
本研究は、AI生成レビューのための総合的な評価フレームワークを紹介する。
人間の評価との整合性を測定し、事実の正確性を検証し、分析的な深さを評価し、実行可能な洞察を識別する。
我々のフレームワークは、AIベースのレビューシステムを評価するための標準化されたメトリクスを確立する。
論文 参考訳(メタデータ) (2025-02-17T12:22:11Z) - LiveIdeaBench: Evaluating LLMs' Divergent Thinking for Scientific Idea Generation with Minimal Context [13.967898012303325]
我々は,Large Language Modelsの科学的アイデア生成を評価するベンチマークであるLiveIdeaBenchを紹介する。
我々のベンチマークでは、最先端のLCMのダイナミックパネルを用いて、創発性、実現性、流布性、柔軟性、明快さの5つの重要な側面で生成されたアイデアを評価する。
我々の結果は、QwQ-32B-previewのようなモデルが、一般的な知能スコアに大きな差があるにもかかわらず、claude-3.7-sonnet:thinkingのような上位モデルのモデルに匹敵する創造的なパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-12-23T14:13:44Z) - Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。
我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。
評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文 参考訳(メタデータ) (2024-12-12T21:29:00Z) - IdeaBench: Benchmarking Large Language Models for Research Idea Generation [19.66218274796796]
大規模言語モデル(LLM)は、人々が人工知能(AI)システムと対話する方法を変革した。
包括的データセットと評価フレームワークを含むベンチマークシステムであるIdeanBenchを提案する。
私たちのデータセットは、さまざまな影響力のある論文のタイトルと要約と、参照された作品で構成されています。
まず、GPT-4oを用いて、新規性や実現可能性などのユーザ固有の品質指標に基づいて、アイデアをランク付けし、スケーラブルなパーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-10-31T17:04:59Z) - A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)とは、ノイズ、ぼかし、気象効果などの劣化を除去しながら、画像の視覚的品質を改善する過程である。
従来のIR手法は、一般的に特定の種類の劣化をターゲットとしており、複雑な歪みを伴う現実のシナリオにおいて、その効果を制限している。
オールインワン画像復元(AiOIR)パラダイムが登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-10-19T11:11:09Z) - A Novel Mathematical Framework for Objective Characterization of Ideas through Vector Embeddings in LLM [0.0]
本研究では,CAIシステムや人間によって生み出されるアイデアの多元性を客観的に評価するための,自動解析のための包括的数学的枠組みを提案する。
UMAP,DBSCAN,PCAなどのツールを用いて,アイデアを高次元ベクトルに変換し,それらの多様性を定量的に測定することにより,提案手法は最も有望なアイデアを選択する信頼性と客観的な方法を提供する。
論文 参考訳(メタデータ) (2024-09-11T19:10:29Z) - Good Idea or Not, Representation of LLM Could Tell [86.36317971482755]
我々は、大規模言語モデルの知識を活用し、科学的アイデアのメリットを評価することを目的としたアイデアアセスメントに焦点をあてる。
我々は、このタスクに対する様々なアプローチのパフォーマンスを訓練し評価するために、細心の注意を払って設計された、フルテキストを持つ約4万の原稿からベンチマークデータセットをリリースする。
その結果, 大規模言語モデルの表現は, 生成出力よりもアイデアの価値を定量化する可能性が高いことが示唆された。
論文 参考訳(メタデータ) (2024-09-07T02:07:22Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Image Quality Assessment in the Modern Age [53.19271326110551]
本チュートリアルは、画像品質評価(IQA)の基礎的理論、方法論、現状の進歩を聴衆に提供する。
まず,視覚刺激を適切に選択する方法に着目し,主観的品質評価手法を再考する。
手書きのエンジニアリングと(深い)学習ベースの手法の両方をカバーします。
論文 参考訳(メタデータ) (2021-10-19T02:38:46Z) - An interdisciplinary conceptual study of Artificial Intelligence (AI)
for helping benefit-risk assessment practices: Towards a comprehensive
qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。
目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文 参考訳(メタデータ) (2021-05-07T12:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。