論文の概要: PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task
Completion
- arxiv url: http://arxiv.org/abs/2311.01767v2
- Date: Tue, 7 Nov 2023 10:13:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 12:35:03.899478
- Title: PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task
Completion
- Title(参考訳): PPTCベンチマーク:PowerPointタスク完了のための大規模言語モデルの評価
- Authors: Yiduo Guo, Zekai Zhang, Yaobo Liang, Dongyan Zhao, Nan Duan
- Abstract要約: 我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。
また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。
その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
- 参考スコア(独自算出の注目度): 96.47420221442397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent evaluations of Large Language Models (LLMs) have centered around
testing their zero-shot/few-shot capabilities for basic natural language tasks
and their ability to translate instructions into tool APIs. However, the
evaluation of LLMs utilizing complex tools to finish multi-turn, multi-modal
instructions in a complex multi-modal environment has not been investigated. To
address this gap, we introduce the PowerPoint Task Completion (PPTC) benchmark
to assess LLMs' ability to create and edit PPT files based on user
instructions. It contains 279 multi-turn sessions covering diverse topics and
hundreds of instructions involving multi-modal operations. We also propose the
PPTX-Match Evaluation System that evaluates if LLMs finish the instruction
based on the prediction file rather than the label API sequence, thus it
supports various LLM-generated API sequences. We measure 3 closed LLMs and 6
open-source LLMs. The results show that GPT-4 outperforms other LLMs with
75.1\% accuracy in single-turn dialogue testing but faces challenges in
completing entire sessions, achieving just 6\% session accuracy. We find three
main error causes in our benchmark: error accumulation in the multi-turn
session, long PPT template processing, and multi-modality perception. These
pose great challenges for future LLM and agent systems. We release the data,
code, and evaluation system of PPTC at \url{https://github.com/gydpku/PPTC}.
- Abstract(参考訳): 最近のLLM(Large Language Models)の評価は、基本的な自然言語タスクのためのゼロショット/フェーショット機能のテストと、ツールAPIへの変換機能を中心にしている。
しかし,複雑なマルチモーダル環境におけるマルチターン・マルチモーダル命令を仕上げるための複雑なツールを用いたLCMの評価は行われていない。
このギャップに対処するために,ユーザ命令に基づいてPPTファイルを作成・編集するLLMの能力を評価するために,PowerPoint Task Completion (PPTC)ベンチマークを導入する。
多様なトピックとマルチモーダル操作を含む数百の命令をカバーする279のマルチターンセッションが含まれている。
また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLLMが命令を終了するかどうかを評価するPPTX-Match評価システムを提案し,様々なLLM生成APIシーケンスをサポートする。
3つの閉LLMと6つのオープンソースLLMを測定する。
その結果,gpt-4 は他の llm を75.1\% の精度で上回っており,セッション全体の完成には困難が伴い,セッション精度はわずか 6\% となった。
ベンチマークでは、マルチターンセッションにおけるエラー蓄積、長いPTテンプレート処理、マルチモーダリティ知覚の3つの主なエラー原因が見つかった。
これらは将来のLLMとエージェントシステムにとって大きな課題となる。
本稿では,PPTCのデータ,コード,評価システムについて,<url{https://github.com/gydpku/PPTC}で公開する。
関連論文リスト
- SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。
もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。
SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文 参考訳(メタデータ) (2024-11-20T18:56:22Z) - SimulBench: Evaluating Language Models with Creative Simulation Tasks [20.233111652638637]
我々は,大規模言語モデル(LLM)を評価するためのベンチマークであるSimulBenchを紹介した。
大きな課題は、ユーザとAI間のシミュレーションタスクのマルチラウンドインタラクティブな性質を保ちながら、異なるLLMを公平にテストするための評価フレームワークを開発することである。
論文 参考訳(メタデータ) (2024-09-11T21:53:20Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - Query-OPT: Optimizing Inference of Large Language Models via Multi-Query Instructions in Meeting Summarization [7.674972936853123]
我々は,同一の入力コンテキストに対するクエリを1つのプロンプトで組み合わせて,繰り返し呼び出しを最小限に抑える方法が,要約の達成に有効かどうかを検討する。
予測フォーマットでの応答生成における100%の信頼性は、通常、特定のクローズドソース LLM に制限される。
論文 参考訳(メタデータ) (2024-02-29T19:00:47Z) - State of What Art? A Call for Multi-Prompt LLM Evaluation [28.307860675006545]
我々は650万インスタンスにわたる単発評価により得られた結果の脆さを包括的に分析した。
解析のロバスト性を改善するために,多様なプロンプトのセットを用いてLSMを評価することを提案する。
論文 参考訳(メタデータ) (2023-12-31T22:21:36Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。