論文の概要: X-WebAgentBench: A Multilingual Interactive Web Benchmark for Evaluating Global Agentic System
- arxiv url: http://arxiv.org/abs/2505.15372v1
- Date: Wed, 21 May 2025 11:07:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.517938
- Title: X-WebAgentBench: A Multilingual Interactive Web Benchmark for Evaluating Global Agentic System
- Title(参考訳): X-WebAgentBench:グローバルエージェントシステム評価のための多言語対話型Webベンチマーク
- Authors: Peng Wang, Ruihan Tao, Qiguang Chen, Mengkang Hu, Libo Qin,
- Abstract要約: X-WebAgentBenchは対話型Web環境における新しい多言語エージェントベンチマークである。
複数の言語にまたがる言語エージェントの計画と相互作用性能を評価する。
以上の結果から, GPT-4oのような高度なモデルでも, 言語横断技術と組み合わせると, 良好な結果が得られないことが明らかとなった。
- 参考スコア(独自算出の注目度): 11.313780010313524
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, large language model (LLM)-based agents have achieved significant success in interactive environments, attracting significant academic and industrial attention. Despite these advancements, current research predominantly focuses on English scenarios. In reality, there are over 7,000 languages worldwide, all of which demand access to comparable agentic services. Nevertheless, the development of language agents remains inadequate for meeting the diverse requirements of multilingual agentic applications. To fill this gap, we introduce X-WebAgentBench, a novel multilingual agent benchmark in an interactive web environment, which evaluates the planning and interaction performance of language agents across multiple languages, thereby contributing to the advancement of global agent intelligence. Additionally, we assess the performance of various LLMs and cross-lingual alignment methods, examining their effectiveness in enhancing agents. Our findings reveal that even advanced models like GPT-4o, when combined with cross-lingual techniques, fail to achieve satisfactory results. We hope that X-WebAgentBench can serve as a valuable benchmark for multilingual agent scenario in real-world applications.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)に基づくエージェントは,対話型環境において大きな成功を収め,学術的,産業的注目を集めている。
これらの進歩にもかかわらず、現在の研究は主に英語のシナリオに焦点を当てている。
実際、世界中で7000以上の言語があり、いずれも同等のエージェントサービスへのアクセスを要求する。
それでも、多言語エージェントアプリケーションの多様な要件を満たすために、言語エージェントの開発は依然として不十分である。
このギャップを埋めるために、対話型Web環境における新しい多言語エージェントベンチマークであるX-WebAgentBenchを導入し、複数の言語にわたる言語エージェントの計画と相互作用性能を評価し、グローバルエージェントインテリジェンスの発展に寄与する。
さらに, 各種LLMおよび言語間アライメント法の性能評価を行い, エージェントの強化効果について検討した。
以上の結果から, GPT-4oのような高度なモデルでも, 言語横断技術と組み合わせると, 良好な結果が得られないことが明らかとなった。
我々は,X-WebAgentBenchが実世界のアプリケーションにおいて,多言語エージェントシナリオの貴重なベンチマークとして機能することを願っている。
関連論文リスト
- SUTRA: Scalable Multilingual Language Model Architecture [5.771289785515227]
我々は50以上の言語でテキストの理解、推論、生成が可能な多言語大言語モデルアーキテクチャSUTRAを紹介する。
広範な評価により、SUTRA は GPT-3.5 や Llama2 といった既存のモデルを 20-30% 上回って、主要なMultitask Language Understanding (MMLU) ベンチマークを上回ります。
以上の結果から,SUTRAは多言語モデル機能において重要なギャップを埋めるだけでなく,AIアプリケーションにおける運用効率とスケーラビリティの新たなベンチマークを確立することが示唆された。
論文 参考訳(メタデータ) (2024-05-07T20:11:44Z) - Exploring Large Language Model based Intelligent Agents: Definitions,
Methods, and Prospects [32.91556128291915]
本稿では, シングルエージェントおよびマルチエージェントシステムにおける知的エージェントの詳細な概要を提供するため, 現在の研究状況について調査する。
定義、研究フレームワーク、その構成、認知と計画方法、ツール利用、環境フィードバックに対する反応などの基礎的な構成要素を網羅する。
我々は、AIと自然言語処理の進化の展望を考慮し、LLMベースのエージェントの展望を思い浮かべて結論付ける。
論文 参考訳(メタデータ) (2024-01-07T09:08:24Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - OpenAgents: An Open Platform for Language Agents in the Wild [71.16800991568677]
OpenAgentsは、日々の生活の中で言語エージェントを使い、ホストするためのオープンなプラットフォームです。
我々は課題と機会を解明し、現実世界の言語エージェントの将来の研究と開発の基礎を築きたいと考えています。
論文 参考訳(メタデータ) (2023-10-16T17:54:53Z) - Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization [103.70896967077294]
本稿では,レトロスペクティブモデルを学習することで,大規模言語エージェントを強化するための原則的枠組みを提案する。
提案するエージェントアーキテクチャは,事前学習した言語モデルを微調整するために,複数の環境やタスクにまたがる報酬から学習する。
様々なタスクの実験結果から、言語エージェントは時間とともに改善することが示された。
論文 参考訳(メタデータ) (2023-08-04T06:14:23Z) - Learning to Ground Multi-Agent Communication with Autoencoders [43.22048280036316]
コミュニケーションには共通言語であるラングア・フランカがエージェント間で必要である。
学習した表現において、言語を基底とする簡単な方法を示す。
標準表現学習アルゴリズムは,共通言語に到達するのに十分であることがわかった。
論文 参考訳(メタデータ) (2021-10-28T17:57:26Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。