Fugu-MT 論文翻訳(概要): PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion

論文の概要: PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion

arxiv url: http://arxiv.org/abs/2403.03788v1
Date: Wed, 6 Mar 2024 15:33:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 14:34:59.191401
Title: PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion
Title（参考訳）: PPTC-Rベンチマーク:PowerPointタスク完了のための大規模言語モデルのロバスト性評価に向けて
Authors: Zekai Zhang, Yiduo Guo, Yaobo Liang, Dongyan Zhao, Nan Duan
Abstract要約: 文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。 GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
参考スコア（独自算出の注目度）: 96.47420221442397
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The growing dependence on Large Language Models (LLMs) for finishing user instructions necessitates a comprehensive understanding of their robustness to complex task completion in real-world situations. To address this critical need, we propose the PowerPoint Task Completion Robustness benchmark (PPTC-R) to measure LLMs' robustness to the user PPT task instruction and software version. Specifically, we construct adversarial user instructions by attacking user instructions at sentence, semantic, and multi-language levels. To assess the robustness of Language Models to software versions, we vary the number of provided APIs to simulate both the newest version and earlier version settings. Subsequently, we test 3 closed-source and 4 open-source LLMs using a benchmark that incorporates these robustness settings, aiming to evaluate how deviations impact LLMs' API calls for task completion. We find that GPT-4 exhibits the highest performance and strong robustness in our benchmark, particularly in the version update and the multilingual settings. However, we find that all LLMs lose their robustness when confronted with multiple challenges (e.g., multi-turn) simultaneously, leading to significant performance drops. We further analyze the robustness behavior and error reasons of LLMs in our benchmark, which provide valuable insights for researchers to understand the LLM's robustness in task completion and develop more robust LLMs and agents. We release the code and data at \url{https://github.com/ZekaiGalaxy/PPTCR}.
Abstract（参考訳）: ユーザインストラクションの完了に対するLLM(Large Language Models)への依存度の増加は、現実の状況における複雑なタスク完了に対する堅牢性に対する包括的理解を必要とする。そこで我々は,ユーザpptタスク命令とソフトウェアバージョンに対するllmsのロバスト性を測定するために,powerpoint task completion robustness benchmark (pptc-r)を提案する。具体的には,文,意味,多言語レベルでのユーザ指示を攻撃することにより,敵対的ユーザ指示を構築する。ソフトウェアバージョンに対する言語モデルの堅牢性を評価するため、最新のバージョンと以前のバージョン設定の両方をシミュレートするために提供されるAPIの数を変える。その後、これらの堅牢性設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストし、LCMのAPI呼び出しがタスク完了にどう影響するかを評価する。 GPT-4はベンチマークにおいて,特にバージョン更新や多言語設定において,最高のパフォーマンスと堅牢性を示す。しかし、複数の課題(例えば、マルチターン)に同時に直面すると、全てのLLMがロバスト性を失い、パフォーマンスが大幅に低下する。さらに,LLMの強靭性挙動と誤り原因をベンチマークで分析し,LLMのタスク完了における堅牢性を理解し,より堅牢なLLMやエージェントを開発するための貴重な知見を提供する。コードとデータは \url{https://github.com/ZekaiGalaxy/PPTCR} で公開しています。

関連論文リスト

Benchmarking Large Language Models for Multi-Language Software Vulnerability Detection [15.026084450436976]
本稿では,ソフトウェア脆弱性検出タスクにおいて,大規模言語モデル(LLM)の性能を評価する。 Pythonで8,260の脆弱な関数、Javaで7,505、JavaScriptで28,983のデータセットをコンパイルしました。これらのLSMは、5つの微調整された小さな言語モデルと2つのオープンソースの静的アプリケーションセキュリティテストツールに対してベンチマークされる。
論文参考訳（メタデータ） (2025-03-03T11:56:00Z)
A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Models [11.087034068992653]
FAUN-Eval は LLM の Fine-grAined issUe solviNg 機能を評価するために特別に設計されたベンチマークである。 30の有名なGitHubリポジトリからキュレートされたデータセットを使って構築されている。 FAUN-Evalでは,4つのクローズドソースモデルと6つのオープンソースモデルを含む10個のLLMを評価した。
論文参考訳（メタデータ） (2024-11-27T03:25:44Z)
SimulBench: Evaluating Language Models with Creative Simulation Tasks [20.233111652638637]
我々は,大規模言語モデル(LLM)を評価するためのベンチマークであるSimulBenchを紹介した。大きな課題は、ユーザとAI間のシミュレーションタスクのマルチラウンドインタラクティブな性質を保ちながら、異なるLLMを公平にテストするための評価フレームワークを開発することである。
論文参考訳（メタデータ） (2024-09-11T21:53:20Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。 LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文参考訳（メタデータ） (2024-01-24T04:28:50Z)
State of What Art? A Call for Multi-Prompt LLM Evaluation [28.307860675006545]
我々は650万インスタンスにわたる単発評価により得られた結果の脆さを包括的に分析した。解析のロバスト性を改善するために,多様なプロンプトのセットを用いてLSMを評価することを提案する。
論文参考訳（メタデータ） (2023-12-31T22:21:36Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文参考訳（メタデータ） (2023-11-03T08:06:35Z)
FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。 FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文参考訳（メタデータ） (2023-10-31T12:32:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。