論文の概要: PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion
- arxiv url: http://arxiv.org/abs/2403.03788v1
- Date: Wed, 6 Mar 2024 15:33:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 14:34:59.191401
- Title: PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion
- Title(参考訳): PPTC-Rベンチマーク:PowerPointタスク完了のための大規模言語モデルのロバスト性評価に向けて
- Authors: Zekai Zhang, Yiduo Guo, Yaobo Liang, Dongyan Zhao, Nan Duan
- Abstract要約: 文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
- 参考スコア(独自算出の注目度): 96.47420221442397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing dependence on Large Language Models (LLMs) for finishing user
instructions necessitates a comprehensive understanding of their robustness to
complex task completion in real-world situations. To address this critical
need, we propose the PowerPoint Task Completion Robustness benchmark (PPTC-R)
to measure LLMs' robustness to the user PPT task instruction and software
version. Specifically, we construct adversarial user instructions by attacking
user instructions at sentence, semantic, and multi-language levels. To assess
the robustness of Language Models to software versions, we vary the number of
provided APIs to simulate both the newest version and earlier version settings.
Subsequently, we test 3 closed-source and 4 open-source LLMs using a benchmark
that incorporates these robustness settings, aiming to evaluate how deviations
impact LLMs' API calls for task completion. We find that GPT-4 exhibits the
highest performance and strong robustness in our benchmark, particularly in the
version update and the multilingual settings. However, we find that all LLMs
lose their robustness when confronted with multiple challenges (e.g.,
multi-turn) simultaneously, leading to significant performance drops. We
further analyze the robustness behavior and error reasons of LLMs in our
benchmark, which provide valuable insights for researchers to understand the
LLM's robustness in task completion and develop more robust LLMs and agents. We
release the code and data at \url{https://github.com/ZekaiGalaxy/PPTCR}.
- Abstract(参考訳): ユーザインストラクションの完了に対するLLM(Large Language Models)への依存度の増加は、現実の状況における複雑なタスク完了に対する堅牢性に対する包括的理解を必要とする。
そこで我々は,ユーザpptタスク命令とソフトウェアバージョンに対するllmsのロバスト性を測定するために,powerpoint task completion robustness benchmark (pptc-r)を提案する。
具体的には,文,意味,多言語レベルでのユーザ指示を攻撃することにより,敵対的ユーザ指示を構築する。
ソフトウェアバージョンに対する言語モデルの堅牢性を評価するため、最新のバージョンと以前のバージョン設定の両方をシミュレートするために提供されるAPIの数を変える。
その後、これらの堅牢性設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストし、LCMのAPI呼び出しがタスク完了にどう影響するかを評価する。
GPT-4はベンチマークにおいて,特にバージョン更新や多言語設定において,最高のパフォーマンスと堅牢性を示す。
しかし、複数の課題(例えば、マルチターン)に同時に直面すると、全てのLLMがロバスト性を失い、パフォーマンスが大幅に低下する。
さらに,LLMの強靭性挙動と誤り原因をベンチマークで分析し,LLMのタスク完了における堅牢性を理解し,より堅牢なLLMやエージェントを開発するための貴重な知見を提供する。
コードとデータは \url{https://github.com/ZekaiGalaxy/PPTCR} で公開しています。
関連論文リスト
- TAT-LLM: A Specialized Language Model for Discrete Reasoning over
Tabular and Textual Data [77.66158066013924]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - State of What Art? A Call for Multi-Prompt LLM Evaluation [29.99545703896457]
我々は650万インスタンスにわたる単発評価により得られた結果の脆さを包括的に分析した。
解析のロバスト性を改善するために,多様なプロンプトのセットを用いてLSMを評価することを提案する。
論文 参考訳(メタデータ) (2023-12-31T22:21:36Z) - PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task
Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。
また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。
その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-03T08:06:35Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark
for Large Language Models [82.27118457984812]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench 上での10 つの LLM の評価により,LLM の弱さを強調し,今後の研究への道のりを示唆する。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z) - CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。
汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。
GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文 参考訳(メタデータ) (2023-09-05T04:12:01Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。