論文の概要: MAPS: A Multilingual Benchmark for Global Agent Performance and Security
- arxiv url: http://arxiv.org/abs/2505.15935v1
- Date: Wed, 21 May 2025 18:42:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.870862
- Title: MAPS: A Multilingual Benchmark for Global Agent Performance and Security
- Title(参考訳): MAPS:グローバルエージェントのパフォーマンスとセキュリティのための多言語ベンチマーク
- Authors: Omer Hofman, Oren Rachmil, Shamik Bose, Vikas Pahuja, Jonathan Brokman, Toshiya Shimizu, Trisha Starostina, Kelly Marchisio, Seraphina Goldfarb-Tarrant, Roman Vainshtein,
- Abstract要約: 多様な言語やタスクにまたがるエージェントAIシステムを評価するためのベンチマークスイートであるMAPSを提案する。
それぞれのデータセットを10の多様な言語に変換し、805のユニークなタスクと8,855の言語固有のインスタンスを生成します。
我々は、英語から他の言語に移行する際に、パフォーマンスとセキュリティの両面で一貫した劣化を観察する。
- 参考スコア(独自算出の注目度): 8.275240552134338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic AI systems, which build on Large Language Models (LLMs) and interact with tools and memory, have rapidly advanced in capability and scope. Yet, since LLMs have been shown to struggle in multilingual settings, typically resulting in lower performance and reduced safety, agentic systems risk inheriting these limitations. This raises concerns about the global accessibility of such systems, as users interacting in languages other than English may encounter unreliable or security-critical agent behavior. Despite growing interest in evaluating agentic AI, existing benchmarks focus exclusively on English, leaving multilingual settings unexplored. To address this gap, we propose MAPS, a multilingual benchmark suite designed to evaluate agentic AI systems across diverse languages and tasks. MAPS builds on four widely used agentic benchmarks - GAIA (real-world tasks), SWE-bench (code generation), MATH (mathematical reasoning), and the Agent Security Benchmark (security). We translate each dataset into ten diverse languages, resulting in 805 unique tasks and 8,855 total language-specific instances. Our benchmark suite enables a systematic analysis of how multilingual contexts affect agent performance and robustness. Empirically, we observe consistent degradation in both performance and security when transitioning from English to other languages, with severity varying by task and correlating with the amount of translated input. Building on these findings, we provide actionable recommendations to guide agentic AI systems development and assessment under multilingual settings. This work establishes a standardized evaluation framework, encouraging future research towards equitable, reliable, and globally accessible agentic AI. MAPS benchmark suite is publicly available at https://huggingface.co/datasets/Fujitsu-FRE/MAPS
- Abstract(参考訳): 大規模言語モデル(LLM)上に構築され、ツールやメモリと相互作用するエージェントAIシステムは、能力とスコープが急速に進歩している。
しかし、LLMは多言語設定に苦しむことが示されており、通常は性能が低下し安全性が低下しているため、エージェントシステムはこれらの制限を継承するリスクがある。
これは、英語以外の言語で対話するユーザーが、信頼できない、またはセキュリティクリティカルなエージェントの振る舞いに遭遇する可能性があるため、このようなシステムのグローバルなアクセシビリティに関する懸念を提起する。
エージェントAI評価への関心が高まっているにもかかわらず、既存のベンチマークは英語のみに重点を置いており、多言語設定は未検討のままである。
このギャップに対処するために,多様な言語やタスクにまたがるエージェントAIシステムを評価するために設計された多言語ベンチマークスイートであるMAPSを提案する。
MAPSは、GAIA(現実世界のタスク)、SWEベンチ(コード生成)、MATH(数学的推論)、エージェントセキュリティベンチマーク(セキュリティ)という4つの広く使われているエージェントベンチマークに基づいて構築されている。
それぞれのデータセットを10の多様な言語に変換し、805のユニークなタスクと8,855の言語固有のインスタンスを生成します。
ベンチマークスイートは、多言語コンテキストがエージェントのパフォーマンスと堅牢性にどのように影響するかを体系的に分析することを可能にする。
経験的には、英語から他言語へ移行する際のパフォーマンスとセキュリティの一貫性の低下を、タスクによって重大度が変化し、翻訳された入力量と相関する形で観察する。
これらの知見に基づいて,多言語環境下でのエージェントAIシステムの開発と評価を指導するための実用的な勧告を提供する。
この研究は標準化された評価フレームワークを確立し、公平で信頼性があり、グローバルにアクセス可能なエージェントAIに向けた将来の研究を奨励する。
MAPSベンチマークスイートはhttps://huggingface.co/datasets/Fujitsu-FRE/MAPSで公開されている。
関連論文リスト
- X-WebAgentBench: A Multilingual Interactive Web Benchmark for Evaluating Global Agentic System [11.313780010313524]
X-WebAgentBenchは対話型Web環境における新しい多言語エージェントベンチマークである。
複数の言語にまたがる言語エージェントの計画と相互作用性能を評価する。
以上の結果から, GPT-4oのような高度なモデルでも, 言語横断技術と組み合わせると, 良好な結果が得られないことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-21T11:07:02Z) - MAATS: A Multi-Agent Automated Translation System Based on MQM Evaluation [9.331779458661831]
MAATSは複数の専門的なAIエージェントを採用しており、それぞれが独自のMQMカテゴリに焦点を当てている。
特に意味的正確性、局所的適応、言語学的に離れた言語対において優れている。
モジュールエージェントの役割を解釈可能なMQM次元に合わせることで、MAATSはブラックボックスLLMと人間の翻訳のギャップを狭める。
論文 参考訳(メタデータ) (2025-05-20T19:29:05Z) - Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - Towards Objectively Benchmarking Social Intelligence for Language Agents at Action Level [23.833528781431884]
社会シミュレーションタスク (Social Simulation Tasks in Sandbox, STSS) は、マルチエージェントシミュレーションのための言語レベルのベンチマークである。
我々の評価結果は、STSSベンチマークが最先端の言語エージェントに挑戦していることを示している。
論文 参考訳(メタデータ) (2024-04-08T09:25:32Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。