論文の概要: PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion
- arxiv url: http://arxiv.org/abs/2403.03788v1
- Date: Wed, 6 Mar 2024 15:33:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 14:34:59.191401
- Title: PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion
- Title(参考訳): PPTC-Rベンチマーク:PowerPointタスク完了のための大規模言語モデルのロバスト性評価に向けて
- Authors: Zekai Zhang, Yiduo Guo, Yaobo Liang, Dongyan Zhao, Nan Duan
- Abstract要約: 文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
- 参考スコア(独自算出の注目度): 96.47420221442397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing dependence on Large Language Models (LLMs) for finishing user
instructions necessitates a comprehensive understanding of their robustness to
complex task completion in real-world situations. To address this critical
need, we propose the PowerPoint Task Completion Robustness benchmark (PPTC-R)
to measure LLMs' robustness to the user PPT task instruction and software
version. Specifically, we construct adversarial user instructions by attacking
user instructions at sentence, semantic, and multi-language levels. To assess
the robustness of Language Models to software versions, we vary the number of
provided APIs to simulate both the newest version and earlier version settings.
Subsequently, we test 3 closed-source and 4 open-source LLMs using a benchmark
that incorporates these robustness settings, aiming to evaluate how deviations
impact LLMs' API calls for task completion. We find that GPT-4 exhibits the
highest performance and strong robustness in our benchmark, particularly in the
version update and the multilingual settings. However, we find that all LLMs
lose their robustness when confronted with multiple challenges (e.g.,
multi-turn) simultaneously, leading to significant performance drops. We
further analyze the robustness behavior and error reasons of LLMs in our
benchmark, which provide valuable insights for researchers to understand the
LLM's robustness in task completion and develop more robust LLMs and agents. We
release the code and data at \url{https://github.com/ZekaiGalaxy/PPTCR}.
- Abstract(参考訳): ユーザインストラクションの完了に対するLLM(Large Language Models)への依存度の増加は、現実の状況における複雑なタスク完了に対する堅牢性に対する包括的理解を必要とする。
そこで我々は,ユーザpptタスク命令とソフトウェアバージョンに対するllmsのロバスト性を測定するために,powerpoint task completion robustness benchmark (pptc-r)を提案する。
具体的には,文,意味,多言語レベルでのユーザ指示を攻撃することにより,敵対的ユーザ指示を構築する。
ソフトウェアバージョンに対する言語モデルの堅牢性を評価するため、最新のバージョンと以前のバージョン設定の両方をシミュレートするために提供されるAPIの数を変える。
その後、これらの堅牢性設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストし、LCMのAPI呼び出しがタスク完了にどう影響するかを評価する。
GPT-4はベンチマークにおいて,特にバージョン更新や多言語設定において,最高のパフォーマンスと堅牢性を示す。
しかし、複数の課題(例えば、マルチターン)に同時に直面すると、全てのLLMがロバスト性を失い、パフォーマンスが大幅に低下する。
さらに,LLMの強靭性挙動と誤り原因をベンチマークで分析し,LLMのタスク完了における堅牢性を理解し,より堅牢なLLMやエージェントを開発するための貴重な知見を提供する。
コードとデータは \url{https://github.com/ZekaiGalaxy/PPTCR} で公開しています。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over
Tabular and Textual Data [77.66158066013924]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - State of What Art? A Call for Multi-Prompt LLM Evaluation [28.307860675006545]
我々は650万インスタンスにわたる単発評価により得られた結果の脆さを包括的に分析した。
解析のロバスト性を改善するために,多様なプロンプトのセットを用いてLSMを評価することを提案する。
論文 参考訳(メタデータ) (2023-12-31T22:21:36Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task
Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。
また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。
その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-03T08:06:35Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。