論文の概要: GAIA-v2-LILT: Multilingual Adaptation of Agent Benchmark beyond Translation
- arxiv url: http://arxiv.org/abs/2604.24929v1
- Date: Mon, 27 Apr 2026 19:11:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.567233
- Title: GAIA-v2-LILT: Multilingual Adaptation of Agent Benchmark beyond Translation
- Title(参考訳): GAIA-v2-LILT:翻訳を超えたエージェントベンチマークの多言語適応
- Authors: Yunsu Kim, Kaden Uhlig, Joern Wuebker,
- Abstract要約: エージェントベンチマークは英語中心であり、多言語版は機械翻訳(MT)と限定的な後編集で構築されることが多い。
エージェント的タスクの場合、この最小限のワークフローは、クエリー・アンサーのミスアライメントや文化的にターゲット外のコンテキストを通じて、ベンチマークの妥当性を破ることができます。
自動チェックと人的レビューの両方を用いて、明示的な機能的アライメント、文化的アライメント、難易度キャリブレーションにより、英語のベンチマークを複数の言語に適応するための洗練されたワークフローを提案する。
- 参考スコア(独自算出の注目度): 2.845609289542755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agent benchmarks remain largely English-centric, while their multilingual versions are often built with machine translation (MT) and limited post-editing. We argue that, for agentic tasks, this minimal workflow can easily break benchmark validity through query-answer misalignment or culturally off-target context. We propose a refined workflow for adapting English benchmarks into multiple languages with explicit functional alignment, cultural alignment, and difficulty calibration using both automated checks and human review. Using this workflow, we introduce GAIA-v2-LILT, a re-audited multilingual extension of GAIA covering five non-English languages. In experiments, our workflow improves agent success rates by up to 32.7% over minimally translated versions, bringing the closest audited setting to within 3.1% of English performance while substantial gaps remain in many other cases. This indicates that a substantial share of the multilingual performance gap is benchmark-induced measurement error, motivating task-level alignment when adapting English benchmarks across languages. The data is available as part of the MAPS package at https://huggingface.co/datasets/Fujitsu-FRE/MAPS/viewer/GAIA-v2-LILT. We also release the code used in our experiments at https://github.com/lilt/gaia-v2-lilt.
- Abstract(参考訳): エージェントベンチマークは英語中心であり、多言語版は機械翻訳(MT)と限定的な後編集で構築されることが多い。
エージェントタスクの場合、この最小限のワークフローは、クエリー・アンサーのミスアライメントや文化的にターゲット外のコンテキストを通じて、ベンチマークの妥当性を破ることができます。
自動チェックと人的レビューの両方を用いて、明示的な機能的アライメント、文化的アライメント、難易度キャリブレーションにより、英語のベンチマークを複数の言語に適応するための洗練されたワークフローを提案する。
このワークフローを用いて、GAIA-v2-LILTは、5つの非英語言語をカバーするGAIAの再監査による多言語拡張である。
実験では、最小限の翻訳版よりもエージェントの成功率を最大32.7%向上させ、イングランドのパフォーマンスの3.1%に最も近い監査結果をもたらす一方で、他の多くのケースでは大きなギャップが残っている。
これは、多言語のパフォーマンスギャップのかなりの部分は、ベンチマークによる測定誤差であり、言語間での英語ベンチマークの適応時にタスクレベルのアライメントを動機付けていることを示している。
データは、https://huggingface.co/datasets/Fujitsu-FRE/MAPS/viewer/GAIA-v2-LILTにあるMAPSパッケージの一部として利用できる。
また、実験で使われたコードはhttps://github.com/lilt/gaia-v2-lilt.orgで公開しています。
関連論文リスト
- DaPT: A Dual-Path Framework for Multilingual Multi-hop Question Answering [41.923993964253405]
本稿では,多言語コーパスとクエリをまたいで検索する新しいフレームワークを提案する。
DaPTは、ソース言語クエリと英訳クエリの両方に並列にサブクエリグラフを生成する。
DaPTは、ベースラインよりも正確で簡潔な答えを得る。
論文 参考訳(メタデータ) (2026-03-19T16:23:04Z) - Text2Cypher Across Languages: Evaluating and Finetuning LLMs [0.17188280334580197]
本論文では,複数の言語を対象としたText2Cypherタスクにおける基礎的および微調整LLMの性能について検討する。
英語の質問をスペイン語とトルコ語に翻訳することで、多言語データセットを作成し、リリースします。
標準化されたプロンプトとメトリクスを用いて、いくつかの基礎モデルを評価し、一貫したパフォーマンスパターンを観察する。
論文 参考訳(メタデータ) (2025-06-26T16:31:10Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - DAMP: Doubly Aligned Multilingual Parser for Task-Oriented Dialogue [44.30286950799403]
コンストラシティブアライメントの事前学習により,英語のパフォーマンスと転送効率が向上することを示す。
我々のDAMP(Douubly Aligned Aligned Parsing)は,spanglish,Hinglish,Multilingual Task Oriented Parsingベンチマークにおいて,mBERT転送性能を3倍,6倍,81倍改善する。
論文 参考訳(メタデータ) (2022-12-15T18:58:07Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。