Fugu-MT 論文翻訳(概要): Ticket-Bench: A Kickoff for Multilingual and Regionalized Agent Evaluation

論文の概要: Ticket-Bench: A Kickoff for Multilingual and Regionalized Agent Evaluation

arxiv url: http://arxiv.org/abs/2509.14477v1
Date: Wed, 17 Sep 2025 23:13:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-19 17:26:52.99864
Title: Ticket-Bench: A Kickoff for Multilingual and Regionalized Agent Evaluation
Title（参考訳）: Ticket-Bench: 多言語および地域化エージェント評価のためのキックオフ
Authors: Thales Sales Almeida, João Guilherme Alves Santos, Thiago Laitz, Giovana Kerche Bonás,
Abstract要約: タスク指向シナリオにおける多言語エージェント評価のためのベンチマークであるTicket-Benchを紹介する。 Ticket-Benchは、ポルトガル語、英語、スペイン語、ドイツ語、イタリア語、フランス語の6つの主要言語にわたるサッカーチケット購入のドメインをシミュレートしている。我々は,関数呼び出しの精度と言語間の一貫性を計測し,多種多様な商用およびオープンソース LLM の評価を行った。
参考スコア（独自算出の注目度）: 4.563830993050022
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are increasingly deployed as task-oriented agents, where success depends on their ability to generate accurate function calls under realistic, multilingual conditions. However, existing agent evaluations largely overlook cultural and linguistic diversity, often relying on monolingual or naively translated benchmarks. We introduce Ticket-Bench, a benchmark for multilingual agent evaluation in task-oriented scenarios. Ticket-Bench simulates the domain of soccer ticket purchases across six major languages: Portuguese, English, Spanish, German, Italian, and French. Using localized teams, cities, and user profiles to provide a higher level of realism. We evaluate a wide range of commercial and open-source LLMs, measuring function-calling accuracy and consistency across languages. Results show that reasoning-oriented models (e.g., GPT-5, Qwen3-235B) dominate performance but still exhibit notable cross-lingual disparities. These findings underscore the need for culturally aware, multilingual benchmarks to guide the development of robust LLM agents.
Abstract（参考訳）: 大規模言語モデル(LLM)はタスク指向エージェントとして、現実的で多言語的な条件下で正確な関数呼び出しを生成する能力に依存するようになってきている。しかし、既存のエージェント評価は文化的・言語的な多様性を概ね見落としており、しばしば単言語または鼻語で翻訳されたベンチマークに依存している。タスク指向シナリオにおける多言語エージェント評価のためのベンチマークであるTicket-Benchを紹介する。 Ticket-Benchは、ポルトガル語、英語、スペイン語、ドイツ語、イタリア語、フランス語の6つの主要言語にわたるサッカーチケット購入のドメインをシミュレートしている。ローカライズされたチーム、都市、ユーザプロファイルを使用して、より高度なリアリズムを提供する。我々は,関数呼び出しの精度と言語間の一貫性を計測し,多種多様な商用およびオープンソース LLM の評価を行った。その結果、推論指向モデル(例えば、GPT-5、Qwen3-235B)が性能を支配しているが、それでも言語間差は顕著であることがわかった。これらの知見は、堅牢なLLMエージェントの開発を導くために、文化的に認識された多言語ベンチマークの必要性を浮き彫りにした。

関連論文リスト

The AI Language Proficiency Monitor -- Tracking the Progress of LLMs on Multilingual Benchmarks [0.0]
我々は、最大200言語にわたる大規模言語モデル(LLM)のパフォーマンスを評価する包括的なベンチマークであるAI Language Monitorを紹介した。 FLORES+, MMLU, GSM8K, TruthfulQA, ARCなどのデータセットを用いて, 翻訳, 質問応答, 数学, 推論などのタスクを集約した。私たちは、研究者、開発者、政策立案者をサポートし、モデルパフォーマンスの強さとギャップを識別する、オープンソースの自動更新型リーダボードとダッシュボードを提供しています。
論文参考訳（メタデータ） (2025-07-11T12:38:02Z)
MuBench: Assessment of Multilingual Capabilities of Large Language Models Across 61 Languages [33.450081592217074]
MuBenchは61の言語をカバーし、幅広い機能を評価するベンチマークです。我々は、最先端の多言語LLMを評価し、請求項と実際の言語カバレッジとの間に顕著なギャップを見いだした。
論文参考訳（メタデータ） (2025-06-24T09:53:00Z)
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文参考訳（メタデータ） (2025-03-13T15:59:20Z)
Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文参考訳（メタデータ） (2024-06-04T17:56:28Z)
Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文参考訳（メタデータ） (2023-10-31T08:09:20Z)
Multilingual Large Language Models Are Not (Yet) Code-Switchers [41.47534626749588]
大規模言語モデル(LLM)は、最近、幅広いタスクにおいて優れた機能を示している。発話の中で言語を交互に行う習慣は、いまだにほとんど受け継がれていない。 LLMの現在の「多言語主義」は、本質的にはコードスイッチングテキストの習熟度を示唆していない、と我々は主張する。
論文参考訳（メタデータ） (2023-05-23T16:50:48Z)
XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文参考訳（メタデータ） (2020-03-24T19:09:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。