論文の概要: Overview of the NTCIR-18 Automatic Evaluation of LLMs (AEOLLM) Task
- arxiv url: http://arxiv.org/abs/2503.13038v1
- Date: Mon, 17 Mar 2025 10:42:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 16:00:01.002063
- Title: Overview of the NTCIR-18 Automatic Evaluation of LLMs (AEOLLM) Task
- Title(参考訳): NTCIR-18 LLM(AEOLLM)タスクの自動評価の概要
- Authors: Junjie Chen, Haitao Li, Zhumin Chu, Yiqun Liu, Qingyao Ai,
- Abstract要約: 本稿では,タスクの背景,データセット,評価尺度,評価結果について述べる。
今年は4チームから48回実施した。本稿では,タスクの背景,データセット,評価尺度,評価結果について述べる。
- 参考スコア(独自算出の注目度): 18.804153276924332
- License:
- Abstract: In this paper, we provide an overview of the NTCIR-18 Automatic Evaluation of LLMs (AEOLLM) task. As large language models (LLMs) grow popular in both academia and industry, how to effectively evaluate the capacity of LLMs becomes an increasingly critical but still challenging issue. Existing methods can be divided into two types: manual evaluation, which is expensive, and automatic evaluation, which faces many limitations including task format (the majority belong to multiple-choice questions) and evaluation criteria (occupied by reference-based metrics). To advance the innovation of automatic evaluation, we propose the AEOLLM task which focuses on generative tasks and encourages reference-free methods. Besides, we set up diverse subtasks such as dialogue generation, text expansion, summary generation and non-factoid question answering to comprehensively test different methods. This year, we received 48 runs from 4 teams in total. This paper will describe the background of the task, the data set, the evaluation measures and the evaluation results, respectively.
- Abstract(参考訳): 本稿では NTCIR-18 Automatic Evaluation of LLMs (AEOLLM) の課題について概説する。
大規模言語モデル(LLM)が学術と産業の両方で普及するにつれて、LLMの能力をどのように効果的に評価するかは、ますます批判的だが依然として難しい問題となっている。
既存の手法は、コストがかかる手動評価と、タスクフォーマット(大多数は複数の質問に属す)や評価基準(参照ベースのメトリクスに占める)を含む多くの制限に直面した自動評価の2つのタイプに分けることができる。
自動評価の革新を推し進めるために, 生成タスクに着目し, 参照不要な手法を奨励するAEOLLMタスクを提案する。
さらに,対話生成,テキスト展開,要約生成,非ファクト質問応答などの多様なサブタスクを設定し,様々な手法を包括的に検証した。
今年は4チームから48回の出場を果たした。
本稿では,タスクの背景,データセット,評価尺度,評価結果について述べる。
関連論文リスト
- Judging the Judges: A Collection of LLM-Generated Relevance Judgements [37.103230004631996]
本稿では,SIGIR 2024におけるLLMJudgeの大規模自動妥当性評価の結果をベンチマークし,報告する。
8つの国際チームが作成したTREC 2023ディープラーニングトラック関連判定のラベルを42 LLMで作成し、ベンチマークする。
論文 参考訳(メタデータ) (2025-02-19T17:40:32Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - SimulBench: Evaluating Language Models with Creative Simulation Tasks [20.233111652638637]
我々は,大規模言語モデル(LLM)を評価するためのベンチマークであるSimulBenchを紹介した。
大きな課題は、ユーザとAI間のシミュレーションタスクのマルチラウンドインタラクティブな性質を保ちながら、異なるLLMを公平にテストするための評価フレームワークを開発することである。
論文 参考訳(メタデータ) (2024-09-11T21:53:20Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - A Comprehensive Analysis of the Effectiveness of Large Language Models
as Automatic Dialogue Evaluators [46.939611070781794]
大規模言語モデル(LLM)は、人間の裁判官にとって有望な代用であることが示されている。
我々は,最近出現した30個のLLMの多次元評価能力をターンレベルとダイアログレベルの両方で解析した。
また,旋回と対話の両レベルにおいて,様々な逆方向の摂動に対処するLLMの頑健性についても検討した。
論文 参考訳(メタデータ) (2023-12-24T04:50:57Z) - LLMEval: A Preliminary Study on How to Evaluate Large Language Models [47.12588320134504]
我々は,様々な基準を手動評価と自動評価を比較し,現場,クラウドソーシング,パブリックアノテータ,GPT-4を用いて評価方法を分析する。
計2,186人が参加し、243,337のマニュアルアノテーションと57,511の自動評価結果が作成された。
論文 参考訳(メタデータ) (2023-12-12T16:14:43Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension [27.53415400454066]
生成モデルを評価するためにSEED-Benchというベンチマークを導入する。
SEED-Benchは、正確な人間のアノテーションを持つ19Kの複数の選択質問からなる。
空間的および時間的理解の両面を網羅し,全12次元にわたる18モデルの性能評価を行った。
論文 参考訳(メタデータ) (2023-07-30T04:25:16Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。