論文の概要: Ticket-Bench: A Kickoff for Multilingual and Regionalized Agent Evaluation
- arxiv url: http://arxiv.org/abs/2509.14477v1
- Date: Wed, 17 Sep 2025 23:13:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.99864
- Title: Ticket-Bench: A Kickoff for Multilingual and Regionalized Agent Evaluation
- Title(参考訳): Ticket-Bench: 多言語および地域化エージェント評価のためのキックオフ
- Authors: Thales Sales Almeida, João Guilherme Alves Santos, Thiago Laitz, Giovana Kerche Bonás,
- Abstract要約: タスク指向シナリオにおける多言語エージェント評価のためのベンチマークであるTicket-Benchを紹介する。
Ticket-Benchは、ポルトガル語、英語、スペイン語、ドイツ語、イタリア語、フランス語の6つの主要言語にわたるサッカーチケット購入のドメインをシミュレートしている。
我々は,関数呼び出しの精度と言語間の一貫性を計測し,多種多様な商用およびオープンソース LLM の評価を行った。
- 参考スコア(独自算出の注目度): 4.563830993050022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed as task-oriented agents, where success depends on their ability to generate accurate function calls under realistic, multilingual conditions. However, existing agent evaluations largely overlook cultural and linguistic diversity, often relying on monolingual or naively translated benchmarks. We introduce Ticket-Bench, a benchmark for multilingual agent evaluation in task-oriented scenarios. Ticket-Bench simulates the domain of soccer ticket purchases across six major languages: Portuguese, English, Spanish, German, Italian, and French. Using localized teams, cities, and user profiles to provide a higher level of realism. We evaluate a wide range of commercial and open-source LLMs, measuring function-calling accuracy and consistency across languages. Results show that reasoning-oriented models (e.g., GPT-5, Qwen3-235B) dominate performance but still exhibit notable cross-lingual disparities. These findings underscore the need for culturally aware, multilingual benchmarks to guide the development of robust LLM agents.
- Abstract(参考訳): 大規模言語モデル(LLM)はタスク指向エージェントとして、現実的で多言語的な条件下で正確な関数呼び出しを生成する能力に依存するようになってきている。
しかし、既存のエージェント評価は文化的・言語的な多様性を概ね見落としており、しばしば単言語または鼻語で翻訳されたベンチマークに依存している。
タスク指向シナリオにおける多言語エージェント評価のためのベンチマークであるTicket-Benchを紹介する。
Ticket-Benchは、ポルトガル語、英語、スペイン語、ドイツ語、イタリア語、フランス語の6つの主要言語にわたるサッカーチケット購入のドメインをシミュレートしている。
ローカライズされたチーム、都市、ユーザプロファイルを使用して、より高度なリアリズムを提供する。
我々は,関数呼び出しの精度と言語間の一貫性を計測し,多種多様な商用およびオープンソース LLM の評価を行った。
その結果、推論指向モデル(例えば、GPT-5、Qwen3-235B)が性能を支配しているが、それでも言語間差は顕著であることがわかった。
これらの知見は、堅牢なLLMエージェントの開発を導くために、文化的に認識された多言語ベンチマークの必要性を浮き彫りにした。
関連論文リスト
- "Be My Cheese?": Assessing Cultural Nuance in Multilingual LLM Translations [0.0]
このパイロットスタディでは、比喩的言語を翻訳する際に、最先端の多言語AIモデルのローカライズ能力について検討する。
文化的な適切さと全体的なローカライゼーションの質 - マーケティングやeコマースといった現実世界のアプリケーションにとって重要な要素である。
論文 参考訳(メタデータ) (2025-09-25T20:55:36Z) - The AI Language Proficiency Monitor -- Tracking the Progress of LLMs on Multilingual Benchmarks [0.0]
我々は、最大200言語にわたる大規模言語モデル(LLM)のパフォーマンスを評価する包括的なベンチマークであるAI Language Monitorを紹介した。
FLORES+, MMLU, GSM8K, TruthfulQA, ARCなどのデータセットを用いて, 翻訳, 質問応答, 数学, 推論などのタスクを集約した。
私たちは、研究者、開発者、政策立案者をサポートし、モデルパフォーマンスの強さとギャップを識別する、オープンソースの自動更新型リーダボードとダッシュボードを提供しています。
論文 参考訳(メタデータ) (2025-07-11T12:38:02Z) - MuBench: Assessment of Multilingual Capabilities of Large Language Models Across 61 Languages [33.450081592217074]
MuBenchは61の言語をカバーし、幅広い機能を評価するベンチマークです。
我々は、最先端の多言語LLMを評価し、請求項と実際の言語カバレッジとの間に顕著なギャップを見いだした。
論文 参考訳(メタデータ) (2025-06-24T09:53:00Z) - GlotEval: A Test Suite for Massively Multilingual Evaluation of Large Language Models [24.450836403716547]
GlotEvalは、多言語評価のために設計された軽量フレームワークである。
数十から数百の言語にまたがる7つの重要なタスク(機械翻訳、テキスト分類、要約、オープンエンドジェネレーション、読書理解、シーケンスラベリング、本質的な評価)をサポートする。
多様な言語的文脈におけるモデルの強みと弱みの正確な診断を可能にする。
論文 参考訳(メタデータ) (2025-04-05T12:30:58Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。
言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。
我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文 参考訳(メタデータ) (2024-06-04T17:56:28Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - Multilingual Large Language Models Are Not (Yet) Code-Switchers [41.47534626749588]
大規模言語モデル(LLM)は、最近、幅広いタスクにおいて優れた機能を示している。
発話の中で言語を交互に行う習慣は、いまだにほとんど受け継がれていない。
LLMの現在の「多言語主義」は、本質的にはコードスイッチングテキストの習熟度を示唆していない、と我々は主張する。
論文 参考訳(メタデータ) (2023-05-23T16:50:48Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。