論文の概要: Multilingual Prompt Localization for Agent-as-a-Judge: Language and Backbone Sensitivity in Requirement-Level Evaluation
- arxiv url: http://arxiv.org/abs/2604.04532v1
- Date: Mon, 06 Apr 2026 08:54:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.152405
- Title: Multilingual Prompt Localization for Agent-as-a-Judge: Language and Backbone Sensitivity in Requirement-Level Evaluation
- Title(参考訳): エージェント・アズ・ア・ジャッジのための多言語プロンプトの局在:要求レベル評価における言語とバックボーン感度
- Authors: Alhasan Mahmood, Samir Abdaljalil, Hasan Kurban,
- Abstract要約: 我々はエージェント・ア・ジャッジ・プロンプト・スタックを5つのタイプ的多様言語(英語、アラビア語、トルコ語、中国語、ヒンディー語)にローカライズする。
3つの開発者エージェントフレームワークと6つの審査バックボーンで55のDevAI開発タスクを評価し、合計4950回の審査を実行した。
GPT-4oは英語で最も満足度が高い(44.72%)のに対し、ジェミニはアラビア語(51.72%、$p0.001$、GPT-4o、Hindi)である。
- 参考スコア(独自算出の注目度): 0.8253953000831505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation language is typically treated as a fixed English default in agentic code benchmarks, yet we show that changing the judge's language can invert backbone rankings. We localize the Agent-as-a-Judge prompt stack to five typologically diverse languages (English, Arabic, Turkish, Chinese, Hindi) and evaluate 55 DevAI development tasks across three developer-agent frameworks and six judge backbones, totaling 4950 judge runs. The central finding is that backbone and language interact: GPT-4o achieves the highest satisfaction in English (44.72\%), while Gemini leads in Arabic (51.72\%, $p<0.001$ vs.\ GPT-4o) and Hindi (53.22\%). No single backbone dominates across all languages, and inter-backbone agreement on individual requirement judgments is modest (Fleiss' $κ\leq 0.231$). A controlled ablation further shows that localizing judge-side instructions, not just benchmark content, can be decisive: Hindi satisfaction drops from 42.8\% to 23.2\% under partial localization. These results indicate that language should be treated as an explicit evaluation variable in agentic benchmarks. Full requirement-level judgments and runtime statistics are released for reproducibility.
- Abstract(参考訳): 評価言語は通常、エージェントコードベンチマークにおいて固定英語のデフォルトとして扱われるが、審査員の言語の変更はバックボーンランキングを逆転させる可能性があることを示す。
我々は、Agent-as-a-Judgeプロンプトスタックを5つのタイプ型的に多様な言語(英語、アラビア語、トルコ語、中国語、ヒンディー語)にローカライズし、3つの開発者エージェントフレームワークと6つの判事バックボーンで55のDevAI開発タスクを評価し、合計4950の審査実行を実行した。
GPT-4oは英語で最も満足度が高い(44.72\%)のに対し、ジェミニはアラビア語で51.72\%、$p<0.001$ vs.)。
GPT-4o) と Hindi (53.22\%)。
すべての言語で単一のバックボーンが支配的であり、個々の要求判断に関するバックボーン間合意は控えめである(Fleissの$κ\leq 0.231$)。
制御されたアブレーションにより、判定側の命令のローカライズは、ベンチマークの内容だけでなく決定的になりうることが示される: ヒンディー語の満足度は、部分的なローカライゼーションの下で42.8\%から23.2\%に低下する。
これらの結果は,エージェントベンチマークにおいて,言語を明示的な評価変数として扱う必要があることを示唆している。
完全な要件レベルの判断と実行時統計は再現性のためにリリースされている。
関連論文リスト
- Extending Beacon to Hindi: Cultural Adaptation Drives Cross-Lingual Sycophancy [0.0]
サイコファシー(英: Sycophancy)とは、言語モデルにおいて、原則的推論よりもユーザの好みとの一致を優先する傾向である。
我々は、制御された3条件設計により、Beacon単ターン強制選択性診断をヒンディー語に拡張する。
すべてのモデルにおいて、英語よりも文化に適応したヒンディー教のプロンプトにおいて、梅毒率は一貫して高い。
論文 参考訳(メタデータ) (2026-01-19T12:03:52Z) - INDIC DIALECT: A Multi Task Benchmark to Evaluate and Translate in Indian Language Dialects [10.663878830823043]
インドではヒンディー語が世界で3番目に話されている言語(6億人以上の話者)であるにもかかわらず、多くの方言はいまだに表現されていない。
我々は,11の方言と2つの言語(ヒンディー語とオディア語)にまたがる13k文対の並列コーパスであるINDIC-DIALECTを紹介する。
論文 参考訳(メタデータ) (2026-01-15T13:40:27Z) - One Instruction Does Not Fit All: How Well Do Embeddings Align Personas and Instructions in Low-Resource Indian Languages? [1.071318785217926]
インドの12の言語と4つの評価課題にまたがるベンチマークを提示する。
E5-Large-Instructはモノリンガル検索で27.4%、クロスリンガル転送で20.7%のリコール@1を達成している。
分類において、LaBSEは75.3%のAUROCを獲得し、校正が強い。
論文 参考訳(メタデータ) (2026-01-15T09:10:14Z) - HinTel-AlignBench: A Framework and Benchmark for Hindi-Telugu with English-Aligned Samples [3.3715057550177145]
インド語の視覚言語モデル(VLM)を評価し,それを英語のパフォーマンスと比較するためのスケーラブルなフレームワークを提案する。
このフレームワークを使ってHinTel-AlignBenchを生成する。HindiとTeluguのさまざまなソースから英語対応のサンプルを描画するベンチマークだ。
ヒンディー語では平均8.3ポイント、テルグ語では5.5ポイントである。
論文 参考訳(メタデータ) (2025-11-19T07:11:00Z) - A Multi-Language Object-Oriented Programming Benchmark for Large Language Models [61.267115598083315]
35の既存ベンチマークの調査では、3つの大きな不均衡が明らかになった。
85.7%は単一のプログラミング言語に重点を置いている。
94.3%は関数レベルまたはステートメントレベルのタスクのみを対象としている。
80%以上は平均10件未満のテストケースを含む。
論文 参考訳(メタデータ) (2025-09-30T11:30:08Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - MIA 2022 Shared Task: Evaluating Cross-lingual Open-Retrieval Question
Answering for 16 Diverse Languages [54.002969723086075]
16言語に類型的に多様である言語における言語横断的オープン-検索型問合せシステムの評価を行った。
反復的にマイニングされた多様な負の例を利用する最良のシステムは32.2 F1となり、ベースラインを4.5ポイント上回る。
第2のベストシステムは文書検索にエンティティを意識した文脈表現を使用し、タミル(20.8 F1)の大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-07-02T06:54:10Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。