論文の概要: PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task
Completion
- arxiv url: http://arxiv.org/abs/2311.01767v2
- Date: Tue, 7 Nov 2023 10:13:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 12:35:03.899478
- Title: PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task
Completion
- Title(参考訳): PPTCベンチマーク:PowerPointタスク完了のための大規模言語モデルの評価
- Authors: Yiduo Guo, Zekai Zhang, Yaobo Liang, Dongyan Zhao, Nan Duan
- Abstract要約: 我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。
また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。
その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
- 参考スコア(独自算出の注目度): 96.47420221442397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent evaluations of Large Language Models (LLMs) have centered around
testing their zero-shot/few-shot capabilities for basic natural language tasks
and their ability to translate instructions into tool APIs. However, the
evaluation of LLMs utilizing complex tools to finish multi-turn, multi-modal
instructions in a complex multi-modal environment has not been investigated. To
address this gap, we introduce the PowerPoint Task Completion (PPTC) benchmark
to assess LLMs' ability to create and edit PPT files based on user
instructions. It contains 279 multi-turn sessions covering diverse topics and
hundreds of instructions involving multi-modal operations. We also propose the
PPTX-Match Evaluation System that evaluates if LLMs finish the instruction
based on the prediction file rather than the label API sequence, thus it
supports various LLM-generated API sequences. We measure 3 closed LLMs and 6
open-source LLMs. The results show that GPT-4 outperforms other LLMs with
75.1\% accuracy in single-turn dialogue testing but faces challenges in
completing entire sessions, achieving just 6\% session accuracy. We find three
main error causes in our benchmark: error accumulation in the multi-turn
session, long PPT template processing, and multi-modality perception. These
pose great challenges for future LLM and agent systems. We release the data,
code, and evaluation system of PPTC at \url{https://github.com/gydpku/PPTC}.
- Abstract(参考訳): 最近のLLM(Large Language Models)の評価は、基本的な自然言語タスクのためのゼロショット/フェーショット機能のテストと、ツールAPIへの変換機能を中心にしている。
しかし,複雑なマルチモーダル環境におけるマルチターン・マルチモーダル命令を仕上げるための複雑なツールを用いたLCMの評価は行われていない。
このギャップに対処するために,ユーザ命令に基づいてPPTファイルを作成・編集するLLMの能力を評価するために,PowerPoint Task Completion (PPTC)ベンチマークを導入する。
多様なトピックとマルチモーダル操作を含む数百の命令をカバーする279のマルチターンセッションが含まれている。
また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLLMが命令を終了するかどうかを評価するPPTX-Match評価システムを提案し,様々なLLM生成APIシーケンスをサポートする。
3つの閉LLMと6つのオープンソースLLMを測定する。
その結果,gpt-4 は他の llm を75.1\% の精度で上回っており,セッション全体の完成には困難が伴い,セッション精度はわずか 6\% となった。
ベンチマークでは、マルチターンセッションにおけるエラー蓄積、長いPTテンプレート処理、マルチモーダリティ知覚の3つの主なエラー原因が見つかった。
これらは将来のLLMとエージェントシステムにとって大きな課題となる。
本稿では,PPTCのデータ,コード,評価システムについて,<url{https://github.com/gydpku/PPTC}で公開する。
関連論文リスト
- PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - Are More LLM Calls All You Need? Towards Scaling Laws of Compound
Inference Systems [80.54551166283805]
本研究では,Large Language Model (LLM) の呼び出し回数が1層投票システムの性能に与える影響について検討する。
この非単調性は,タスク内の問合せの難しさの多様性に起因すると考えられる。
論文 参考訳(メタデータ) (2024-03-04T19:12:48Z) - Query-OPT: Optimizing Inference of Large Language Models via Multi-Query
Instructions in Meeting Summarization [8.234063663233595]
我々は,同一の入力コンテキストに対するクエリをひとつのプロンプトで組み合わせて,繰り返し呼び出しを最小限に抑える方法が,要約に有効かどうかを検討する。
ほとんどのLLMはマルチクエリの命令に応答する傾向にあるが、そのほとんど全てが要求された出力形式で応答を適切に生成できなかった。
論文 参考訳(メタデータ) (2024-02-29T19:00:47Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over
Tabular and Textual Data [77.66158066013924]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - State of What Art? A Call for Multi-Prompt LLM Evaluation [29.99545703896457]
我々は650万インスタンスにわたる単発評価により得られた結果の脆さを包括的に分析した。
解析のロバスト性を改善するために,多様なプロンプトのセットを用いてLSMを評価することを提案する。
論文 参考訳(メタデータ) (2023-12-31T22:21:36Z) - An LLM Compiler for Parallel Function Calling [71.4578671406412]
本稿では,複数の関数呼び出しを効率的にオーケストレーションするために並列に関数を実行するLLMCompilerを紹介する。
ReActと比較して、一貫したレイテンシの高速化が3.7倍、コストの削減が6.7倍、精度が9%向上している。
論文 参考訳(メタデータ) (2023-12-07T18:32:04Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark
for Large Language Models [82.27118457984812]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench 上での10 つの LLM の評価により,LLM の弱さを強調し,今後の研究への道のりを示唆する。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z) - CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。
汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。
GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文 参考訳(メタデータ) (2023-09-05T04:12:01Z) - Investigating the Effectiveness of Task-Agnostic Prefix Prompt for
Instruction Following [44.701091969256055]
本稿では,TAPP(Task-Agnostic Prefix Prompt)を入力にプリプションすることで,各種大規模言語モデル(LLM)の命令追従能力が向上することを示す。
我々は、ベースLLM(命令に従うように微調整されていない)と命令調整モデルの両方がTAPPの恩恵を受けており、平均で34.58%、12.26%の改善が得られた。
論文 参考訳(メタデータ) (2023-02-28T16:06:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。