論文の概要: A Position Paper on the Automatic Generation of Machine Learning Leaderboards
- arxiv url: http://arxiv.org/abs/2505.17465v1
- Date: Fri, 23 May 2025 04:46:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.816751
- Title: A Position Paper on the Automatic Generation of Machine Learning Leaderboards
- Title(参考訳): 機械学習のリーダーボードの自動生成に関するポジションペーパー
- Authors: Roelien C Timmer, Yufang Hou, Stephen Wan,
- Abstract要約: 機械学習(ML)研究における重要な課題は、MLのリーダーボードを通じて実行される以前の作業を比較することである。
この負担を軽減するために、研究者は研究論文からリーダーボードエントリを抽出する方法を開発した。
しかし、事前の作業は、問題フレーミング、比較の複雑化、現実の応用可能性の制限などによって異なる。
本稿では,ALGタスクの定義方法の標準化を目的とした,ALG統合概念フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.736094044510224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An important task in machine learning (ML) research is comparing prior work, which is often performed via ML leaderboards: a tabular overview of experiments with comparable conditions (e.g., same task, dataset, and metric). However, the growing volume of literature creates challenges in creating and maintaining these leaderboards. To ease this burden, researchers have developed methods to extract leaderboard entries from research papers for automated leaderboard curation. Yet, prior work varies in problem framing, complicating comparisons and limiting real-world applicability. In this position paper, we present the first overview of Automatic Leaderboard Generation (ALG) research, identifying fundamental differences in assumptions, scope, and output formats. We propose an ALG unified conceptual framework to standardise how the ALG task is defined. We offer ALG benchmarking guidelines, including recommendations for datasets and metrics that promote fair, reproducible evaluation. Lastly, we outline challenges and new directions for ALG, such as, advocating for broader coverage by including all reported results and richer metadata.
- Abstract(参考訳): 機械学習(ML)研究における重要なタスクは、以前の作業と比較することであり、しばしばMLのリーダーボードを通じて行われる。
しかし、文学の量が増えると、これらのリーダーボードの作成と維持に困難が生じる。
この負担を軽減するために、研究論文からリーダーボードのエントリを抽出し、自動的にリーダーボードのキュレーションを行う方法を開発した。
しかし、事前の作業は、問題フレーミング、比較の複雑化、現実の応用可能性の制限などによって異なる。
本稿では,ALG(Automatic Leaderboard Generation)研究の概観について述べる。
本稿では,ALGタスクの定義方法の標準化を目的とした,ALG統合概念フレームワークを提案する。
我々は、公正で再現可能な評価を促進するデータセットやメトリクスのレコメンデーションを含むALGベンチマークガイドラインを提供する。
最後に、報告されたすべての結果とよりリッチなメタデータを含めることで、より広範なカバレッジを提唱するなど、ALGの課題と新たな方向性について概説する。
関連論文リスト
- Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。
学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。
我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文 参考訳(メタデータ) (2025-04-14T14:52:28Z) - LAG: LLM agents for Leaderboard Auto Generation on Demanding [38.53050861010012]
Leaderboard Auto Generation(LAG)は、特定の研究トピックに関するリーダボードの自動生成のためのフレームワークである。
毎日更新される多数のAI論文に直面すると、研究者が提案されているすべての論文の方法、実験結果、設定を追跡することは難しくなる。
コントリビューションには,リーダボード構築問題に対する包括的ソリューション,信頼性評価方法,リーダボードの高品質性を示す実験結果などが含まれている。
論文 参考訳(メタデータ) (2025-02-25T13:54:03Z) - Transformers Utilization in Chart Understanding: A Review of Recent Advances & Future Trends [1.124958340749622]
本稿では、理解(CU)における顕著な研究をレビューする。
それは、End-to-End(E2E)ソリューション内でトランスフォーマーを使用するState-of-The-Art(SoTA)フレームワークに焦点を当てている。
この記事では、CUソリューションを進める上で重要な課題を特定し、将来有望な方向性を概説する。
論文 参考訳(メタデータ) (2024-10-05T16:26:44Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Efficient Performance Tracking: Leveraging Large Language Models for Automated Construction of Scientific Leaderboards [67.65408769829524]
科学的リーダーボードは、競争方法の評価と比較を容易にする標準化されたランキングシステムである。
出版物の増加により、これらのリーダーボードを手動で構築し維持することは不可能になった。
手作業の削減の解決策として リーダーボードの 自動構築が登場しました
論文 参考訳(メタデータ) (2024-09-19T11:12:27Z) - Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation [5.3558730908641525]
本稿では,ATG のタスクを標準化するためのベンチマークデータセット CAMERA を提案する。
我々の実験は、現状と残りの課題を示している。
また、ATGの既存の指標とLLMに基づく評価器が人間の評価とどのように一致しているかについても検討する。
論文 参考訳(メタデータ) (2023-09-21T12:51:24Z) - GENIE: A Leaderboard for Human-in-the-Loop Evaluation of Text Generation [83.10599735938618]
リーダーボードは、評価を標準化し、独立した外部リポジトリに委譲することで、多くのNLPデータセットのモデル開発を容易にしています。
本研究では、テキスト生成タスクにリーダーボードの容易さをもたらす人間評価リーダーボードであるGENIEを紹介します。
論文 参考訳(メタデータ) (2021-01-17T00:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。