論文の概要: LAG: LLM agents for Leaderboard Auto Generation on Demanding
- arxiv url: http://arxiv.org/abs/2502.18209v1
- Date: Tue, 25 Feb 2025 13:54:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:19.649167
- Title: LAG: LLM agents for Leaderboard Auto Generation on Demanding
- Title(参考訳): LAG:LLMエージェントによる車載自動車の需要予測
- Authors: Jian Wu, Jiayu Zhang, Dongyuan Li, Linyi Yang, Aoxiao Zhong, Renhe Jiang, Qingsong Wen, Yue Zhang,
- Abstract要約: Leaderboard Auto Generation(LAG)は、特定の研究トピックに関するリーダボードの自動生成のためのフレームワークである。
毎日更新される多数のAI論文に直面すると、研究者が提案されているすべての論文の方法、実験結果、設定を追跡することは難しくなる。
コントリビューションには,リーダボード構築問題に対する包括的ソリューション,信頼性評価方法,リーダボードの高品質性を示す実験結果などが含まれている。
- 参考スコア(独自算出の注目度): 38.53050861010012
- License:
- Abstract: This paper introduces Leaderboard Auto Generation (LAG), a novel and well-organized framework for automatic generation of leaderboards on a given research topic in rapidly evolving fields like Artificial Intelligence (AI). Faced with a large number of AI papers updated daily, it becomes difficult for researchers to track every paper's proposed methods, experimental results, and settings, prompting the need for efficient automatic leaderboard construction. While large language models (LLMs) offer promise in automating this process, challenges such as multi-document summarization, leaderboard generation, and experiment fair comparison still remain under exploration. LAG solves these challenges through a systematic approach that involves the paper collection, experiment results extraction and integration, leaderboard generation, and quality evaluation. Our contributions include a comprehensive solution to the leaderboard construction problem, a reliable evaluation method, and experimental results showing the high quality of leaderboards.
- Abstract(参考訳): 本稿では、人工知能(AI)のような急速に発展する分野において、与えられた研究トピックにおいて、リーダーボードの自動生成のための、新規で組織化されたフレームワークであるリーダーボードオートジェネレーション(LAG)を紹介する。
毎日更新される多数のAI論文に直面しているため、研究者が提案されているすべての論文の方法、実験結果、設定を追跡することは難しくなり、効率的なリーダーボードの構築の必要性が高まっている。
大規模言語モデル(LLM)はこのプロセスの自動化を約束するが、マルチドキュメント要約、リーダーボード生成、実験公正比較といった課題はまだ検討中である。
LAGは、紙の収集、実験結果の抽出と統合、リーダーボードの生成、品質評価を含む体系的なアプローチを通じて、これらの課題を解決する。
コントリビューションには,リーダボード構築問題に対する包括的ソリューション,信頼性評価方法,リーダボードの高品質性を示す実験結果などが含まれている。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Efficient Performance Tracking: Leveraging Large Language Models for Automated Construction of Scientific Leaderboards [67.65408769829524]
科学的リーダーボードは、競争方法の評価と比較を容易にする標準化されたランキングシステムである。
出版物の増加により、これらのリーダーボードを手動で構築し維持することは不可能になった。
手作業の削減の解決策として リーダーボードの 自動構築が登場しました
論文 参考訳(メタデータ) (2024-09-19T11:12:27Z) - AutoSurvey: Large Language Models Can Automatically Write Surveys [77.0458309675818]
本稿では,総合的な文献調査を自動作成する手法であるAutoSurveyを紹介する。
従来の調査論文は、膨大な量の情報と複雑さのために、課題に直面している。
我々の貢献には、調査問題に対する総合的な解決策、信頼性評価方法、AutoSurveyの有効性を実証する実験的な検証が含まれる。
論文 参考訳(メタデータ) (2024-06-10T12:56:06Z) - Exploring the Latest LLMs for Leaderboard Extraction [0.3072340427031969]
本稿では, LLMs-ralMist 7B, Llama GPT-4-Turbo, GPT-4.o を用いて, 実験的なAI研究論文からリーダボード情報を抽出する方法について検討する。
本研究は,これらのモデルを用いて,研究論文からの4倍率(Task,Metric,Score)の生成性能を評価する。
論文 参考訳(メタデータ) (2024-06-06T05:54:45Z) - Self-Improving-Leaderboard(SIL): A Call for Real-World Centric Natural
Language Processing Leaderboards [5.919860270977038]
与えられたテストデータセットの評価は、モデルの多くのパフォーマンス指標の1つにすぎない、と我々は主張する。
本稿では,現在のリーダーボードシステムにおけるこれらの課題に対処する,新しいリーダーボードシステムパラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-20T06:13:03Z) - Automated Mining of Leaderboards for Empirical AI Research [0.0]
本研究では,知識グラフに基づく学術情報組織のためのリーダーボード作成のための包括的アプローチを提案する。
具体的には,最先端のトランスフォーマーモデルであるViz. Bert, SciBert, XLNetを用いたリーダボードの自動構築の問題点について検討する。
その結果、実験的なAI研究の大部分を、知識グラフとして次世代デジタルライブラリにまとめることができる。
論文 参考訳(メタデータ) (2021-08-31T10:00:52Z) - GENIE: A Leaderboard for Human-in-the-Loop Evaluation of Text Generation [83.10599735938618]
リーダーボードは、評価を標準化し、独立した外部リポジトリに委譲することで、多くのNLPデータセットのモデル開発を容易にしています。
本研究では、テキスト生成タスクにリーダーボードの容易さをもたらす人間評価リーダーボードであるGENIEを紹介します。
論文 参考訳(メタデータ) (2021-01-17T00:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。