論文の概要: Efficient Performance Tracking: Leveraging Large Language Models for Automated Construction of Scientific Leaderboards
- arxiv url: http://arxiv.org/abs/2409.12656v1
- Date: Thu, 19 Sep 2024 11:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 13:56:59.100542
- Title: Efficient Performance Tracking: Leveraging Large Language Models for Automated Construction of Scientific Leaderboards
- Title(参考訳): 効率的なパフォーマンストラッキング - 科学的リーダーボード構築自動化のための大規模言語モデルを活用する
- Authors: Furkan Şahinuç, Thy Thy Tran, Yulia Grishina, Yufang Hou, Bei Chen, Iryna Gurevych,
- Abstract要約: 科学的リーダーボードは、競争方法の評価と比較を容易にする標準化されたランキングシステムである。
出版物の増加により、これらのリーダーボードを手動で構築し維持することは不可能になった。
手作業の削減の解決策として リーダーボードの 自動構築が登場しました
- 参考スコア(独自算出の注目度): 67.65408769829524
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Scientific leaderboards are standardized ranking systems that facilitate evaluating and comparing competitive methods. Typically, a leaderboard is defined by a task, dataset, and evaluation metric (TDM) triple, allowing objective performance assessment and fostering innovation through benchmarking. However, the exponential increase in publications has made it infeasible to construct and maintain these leaderboards manually. Automatic leaderboard construction has emerged as a solution to reduce manual labor. Existing datasets for this task are based on the community-contributed leaderboards without additional curation. Our analysis shows that a large portion of these leaderboards are incomplete, and some of them contain incorrect information. In this work, we present SciLead, a manually-curated Scientific Leaderboard dataset that overcomes the aforementioned problems. Building on this dataset, we propose three experimental settings that simulate real-world scenarios where TDM triples are fully defined, partially defined, or undefined during leaderboard construction. While previous research has only explored the first setting, the latter two are more representative of real-world applications. To address these diverse settings, we develop a comprehensive LLM-based framework for constructing leaderboards. Our experiments and analysis reveal that various LLMs often correctly identify TDM triples while struggling to extract result values from publications. We make our code and data publicly available.
- Abstract(参考訳): 科学的リーダーボードは、競争方法の評価と比較を容易にする標準化されたランキングシステムである。
通常、リーダーボードはタスク、データセット、評価基準(TDM)の三倍によって定義され、客観的なパフォーマンス評価とベンチマークによるイノベーションの促進を可能にする。
しかし、出版物の増加により、これらのリーダーボードを手動で構築し維持することは不可能になっている。
手作業による作業を削減するソリューションとして,リーダボードの自動構築が登場している。
このタスクの既存のデータセットは、追加のキュレーションなしでコミュニティが配布するリーダーボードに基づいている。
分析の結果、これらのリーダーボードの大部分は不完全であり、一部は誤った情報を含んでいることがわかった。
本稿では、上記の問題を克服する手作業によるSciLeadについて紹介する。
このデータセットに基づいて、TDMトリプルが完全に定義され、部分的に定義され、リーダーボードの構築中に未定義である実世界のシナリオをシミュレートする3つの実験的な設定を提案する。
前回の研究では最初の設定についてしか研究されていないが、後者の2つは現実世界の応用を代表している。
これらの多様な設定に対処するため、我々はリーダーボードを構築するための総合的なLCMベースのフレームワークを開発した。
実験と分析の結果,出版物から結果の抽出に苦慮しながら,様々なLCMがTDMトリプルを正しく識別することがわかった。
コードとデータを公開しています。
関連論文リスト
- Optimizing Instruction Synthesis: Effective Exploration of Evolutionary Space with Tree Search [25.108044778194536]
命令を効率的に合成するスケーラブルなフレームワークであるIDEA-MCTS (Instruction Data Enhancement using Monte Carlo Tree Search)を紹介した。
木探索と評価モデルにより、各命令を効率よくガイドして高品質な形式に進化させ、命令の微調整を支援することができる。
実験の結果、IDEA-MCTSはシードインストラクションデータを大幅に向上させ、品質、多様性、複雑さの平均評価スコアを2.19から3.81に引き上げた。
論文 参考訳(メタデータ) (2024-10-14T11:28:30Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - Self-Improving-Leaderboard(SIL): A Call for Real-World Centric Natural
Language Processing Leaderboards [5.919860270977038]
与えられたテストデータセットの評価は、モデルの多くのパフォーマンス指標の1つにすぎない、と我々は主張する。
本稿では,現在のリーダーボードシステムにおけるこれらの課題に対処する,新しいリーダーボードシステムパラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-20T06:13:03Z) - CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented
Dialog Systems [56.302581679816775]
本稿では,タスク固有の命令でPLMを利用する包括的インストラクション(CINS)を提案する。
命令のスキーマ(定義、制約、プロンプト)と、ToDの3つの重要な下流タスクに対するカスタマイズされた実現を設計する。
これらのToDタスクに対して,小さな検証データを用いた現実的な数ショット学習シナリオで実験を行った。
論文 参考訳(メタデータ) (2021-09-10T03:23:06Z) - Unreasonable Effectiveness of Rule-Based Heuristics in Solving Russian
SuperGLUE Tasks [2.6189995284654737]
SuperGLUEのようなリーダーボードは、NLPの活発な開発のための重要なインセンティブと見なされている。
テストデータセットは浅瀬に対して脆弱であることを示す。
最も簡単な説明として)RSGリーダーボードにおけるSOTAモデルのパフォーマンスの大部分は、これらの浅瀬を利用するためである可能性が高い。
論文 参考訳(メタデータ) (2021-05-03T22:19:22Z) - GENIE: A Leaderboard for Human-in-the-Loop Evaluation of Text Generation [83.10599735938618]
リーダーボードは、評価を標準化し、独立した外部リポジトリに委譲することで、多くのNLPデータセットのモデル開発を容易にしています。
本研究では、テキスト生成タスクにリーダーボードの容易さをもたらす人間評価リーダーボードであるGENIEを紹介します。
論文 参考訳(メタデータ) (2021-01-17T00:40:47Z) - Supervision Levels Scale (SLS) [37.944946917484444]
我々は、事前トレーニング、ラベルのトレーニング、トレーニングデータという、追加のコストを要しながら、メソッドに利点を与えることが知られている、監督の3つの側面を捉えます。
提案した3次元尺度は、結果表やリーダーボードに含められ、その性能だけでなく、各手法が活用するデータ監視レベルによってメソッドを手軽に比較することができる。
論文 参考訳(メタデータ) (2020-08-22T18:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。