論文の概要: AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research
- arxiv url: http://arxiv.org/abs/2507.13300v1
- Date: Thu, 17 Jul 2025 17:09:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.588077
- Title: AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research
- Title(参考訳): AbGen:科学研究のためのアブレーション研究設計と評価における大規模言語モデルの評価
- Authors: Yilun Zhao, Weiyuan Chen, Zhijian Xu, Manasi Patwardhan, Yixin Liu, Chengye Wang, Lovekesh Vig, Arman Cohan,
- Abstract要約: AbGenは、科学研究のためのアブレーション研究を設計する際のLSMの能力を評価するために設計された最初のベンチマークである。
そこで我々は,一般的な自動評価システムの信頼性を評価するメタ評価ベンチマークAbGen-Evalを開発した。
- 参考スコア(独自算出の注目度): 33.79419161415481
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce AbGen, the first benchmark designed to evaluate the capabilities of LLMs in designing ablation studies for scientific research. AbGen consists of 1,500 expert-annotated examples derived from 807 NLP papers. In this benchmark, LLMs are tasked with generating detailed ablation study designs for a specified module or process based on the given research context. Our evaluation of leading LLMs, such as DeepSeek-R1-0528 and o4-mini, highlights a significant performance gap between these models and human experts in terms of the importance, faithfulness, and soundness of the ablation study designs. Moreover, we demonstrate that current automated evaluation methods are not reliable for our task, as they show a significant discrepancy when compared to human assessment. To better investigate this, we develop AbGen-Eval, a meta-evaluation benchmark designed to assess the reliability of commonly used automated evaluation systems in measuring LLM performance on our task. We investigate various LLM-as-Judge systems on AbGen-Eval, providing insights for future research on developing more effective and reliable LLM-based evaluation systems for complex scientific tasks.
- Abstract(参考訳): 本稿では,科学研究のためのアブレーション研究の設計におけるLCMの能力を評価するための最初のベンチマークであるAbGenを紹介する。
AbGen は 807 NLP 論文から派生した 1,500 のエキスパート注釈付き例で構成されている。
このベンチマークでは、LLMは与えられた研究状況に基づいて、指定されたモジュールやプロセスの詳細なアブレーション研究設計を生成する。
DeepSeek-R1-0528 や o4-mini など,先進的な LLM の評価は,これらのモデルと人間の専門家の間に,アブレーション研究設計の重要性,忠実性,健全性という点において,重要なパフォーマンスギャップを浮き彫りにしている。
また,現在の自動評価手法は,人間の評価との大きな相違点を示すため,我々のタスクに信頼性がないことを示す。
そこで我々は,LLMの性能評価において,一般的に使用されている自動評価システムの信頼性を評価するメタ評価ベンチマークであるAbGen-Evalを開発した。
本稿では,AbGen-Eval上でのLCM-as-Judgeシステムについて検討し,より効率的で信頼性の高いLCMに基づく複雑な科学的タスク評価システムの開発に向けた今後の研究への洞察を提供する。
関連論文リスト
- FutureGen: LLM-RAG Approach to Generate the Future Work of Scientific Article [6.682911432177815]
本研究は,関連論文とともに,学術論文の重要部分から今後の研究提案を生成する。
様々な大規模言語モデル (LLM) とRAG(Retrieval-Augmented Generation) を統合して, 生成プロセスを改善する実験を行った。
論文 参考訳(メタデータ) (2025-03-20T06:14:02Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - IdeaBench: Benchmarking Large Language Models for Research Idea Generation [19.66218274796796]
大規模言語モデル(LLM)は、人々が人工知能(AI)システムと対話する方法を変革した。
包括的データセットと評価フレームワークを含むベンチマークシステムであるIdeanBenchを提案する。
私たちのデータセットは、さまざまな影響力のある論文のタイトルと要約と、参照された作品で構成されています。
まず、GPT-4oを用いて、新規性や実現可能性などのユーザ固有の品質指標に基づいて、アイデアをランク付けし、スケーラブルなパーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-10-31T17:04:59Z) - Unveiling and Consulting Core Experts in Retrieval-Augmented MoE-based LLMs [64.9693406713216]
RAGシステムの有効性に寄与する内部メカニズムは未解明のままである。
実験の結果,複数のコアグループの専門家がRAG関連行動に主に関与していることが判明した。
本稿では,専門家の活性化を通じてRAGの効率性と有効性を高めるためのいくつかの戦略を提案する。
論文 参考訳(メタデータ) (2024-10-20T16:08:54Z) - LLaVA-Critic: Learning to Evaluate Multimodal Models [110.06665155812162]
本稿では,LLaVA-Criticについて紹介する。LLaVA-Criticは,汎用評価器として設計された,最初のオープンソースの大規模マルチモーダルモデル(LMM)である。
LLaVA-Criticは、さまざまな評価基準とシナリオを組み込んだ高品質な批判的インストラクションフォローデータセットを使用してトレーニングされている。
論文 参考訳(メタデータ) (2024-10-03T17:36:33Z) - From Text to Insight: Leveraging Large Language Models for Performance Evaluation in Management [6.70908766695241]
本研究では,大規模言語モデル(LLM),特にGPT-4の可能性を探り,組織的タスクパフォーマンス評価における客観性を高める。
以上の結果から,GPT評価は人間の評価に匹敵するが,一貫性と信頼性が高いことが示唆された。
LLMはテキストベースのデータから意味のある構成物を抽出できるが、その範囲は特定のパフォーマンス評価形式に限定されている。
論文 参考訳(メタデータ) (2024-08-09T20:35:10Z) - HumanEvo: An Evolution-aware Benchmark for More Realistic Evaluation of Repository-level Code Generation [36.1669124651617]
我々は,大規模言語モデルのコード生成性能を,ソフトウェア開発の進化的性質を反映した設定内で理解するための実証的研究を行う。
我々は、自動実行ベースの評価ツールを備えた進化型リポジトリレベルのコード生成データセットであるHumanEvoを使用します。
従来の進化を無視した評価手法は, 10.0%から61.1%の範囲で, LLMの膨張性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-06-11T03:19:18Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。