論文の概要: Checklist Engineering Empowers Multilingual LLM Judges
- arxiv url: http://arxiv.org/abs/2507.06774v1
- Date: Wed, 09 Jul 2025 12:03:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.572714
- Title: Checklist Engineering Empowers Multilingual LLM Judges
- Title(参考訳): チェックリストエンジニアリングが多言語LLM判事に権限を与える
- Authors: Mohammad Ghiasvand Mohammadkhani, Hamid Beigy,
- Abstract要約: Checklist Engineering ベースの LLM-as-a-Judge (CE-Judge) は、オープンソースのモデルによる多言語評価にチェックリストの直観を使用する、トレーニング不要のフレームワークである。
我々の手法は一般にベースラインを超え、GPT-4oモデルと同等に機能する。
- 参考スコア(独自算出の注目度): 12.64438771302935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated text evaluation has long been a central issue in Natural Language Processing (NLP). Recently, the field has shifted toward using Large Language Models (LLMs) as evaluators-a trend known as the LLM-as-a-Judge paradigm. While promising and easily adaptable across tasks, this approach has seen limited exploration in multilingual contexts. Existing multilingual studies often rely on proprietary models or require extensive training data for fine-tuning, raising concerns about cost, time, and efficiency. In this paper, we propose Checklist Engineering based LLM-as-a-Judge (CE-Judge), a training-free framework that uses checklist intuition for multilingual evaluation with an open-source model. Experiments across multiple languages and three benchmark datasets, under both pointwise and pairwise settings, show that our method generally surpasses the baselines and performs on par with the GPT-4o model.
- Abstract(参考訳): 自動テキスト評価は、自然言語処理(NLP)において長い間重要な問題であった。
近年,LLM-as-a-Judgeパラダイム(LLM-as-a-Judge パラダイム)として知られる評価指標として,LLM(Large Language Models)の利用が注目されている。
タスク間で有望かつ容易に適応できる一方で、このアプローチは多言語コンテキストでの探索に限られている。
既存の多言語研究は、しばしばプロプライエタリなモデルに依存するか、微調整やコスト、時間、効率に関する懸念を提起するために広範なトレーニングデータを必要とする。
本稿では,チェックリスト工学に基づくLLM-as-a-Judge(CE-Judge)を提案する。
複数の言語にまたがる実験と3つのベンチマークデータセットは、ポイントワイドとペアワイドの両方で、一般的に我々の手法がベースラインを超え、GPT-4oモデルと同等に動作することを示す。
関連論文リスト
- Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models [52.22235443948351]
大規模言語モデル(LLM)を効果的に事前学習するためには,高品質な多言語学習データが不可欠である
本稿では,多言語多言語データを大規模に効率的にキュレートする体系的アプローチであるJQLを紹介する。
JQLは、LLMのアノテーション機能を、事前トレーニングされた多言語埋め込みに基づいて軽量アノテータに蒸留する。
論文 参考訳(メタデータ) (2025-05-28T11:06:54Z) - M-Prometheus: A Suite of Open Multilingual LLM Judges [64.22940792713713]
M-Prometheusは,多言語出力の直接評価とペア比較フィードバックを両立できるオープンウェイトLLM判定器のスイートである。
M-Prometheusモデルは、20以上の言語にまたがる多言語報酬ベンチマークや、4つの言語対をカバーする文語機械翻訳(MT)評価において、最先端のLLM判事より優れている。
論文 参考訳(メタデータ) (2025-04-07T11:37:26Z) - Few-Shot Multilingual Open-Domain QA from 5 Examples [44.04243892727856]
我々は,大規模言語モデル(LLM)から大規模多言語データを合成するためのemphfew-shot学習手法を提案する。
提案手法はWikiDataを用いた大規模自己教師付き事前学習から始まり,LLMを数発の監視で生成した高品質な合成多言語データを訓練する。
最終的なモデルである textscFsModQA は、MLODQA における既存の少数ショットベースラインと教師付きベースラインと、言語横断とモノリンガル検索を著しく上回る。
論文 参考訳(メタデータ) (2025-02-27T03:24:57Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - MELA: Multilingual Evaluation of Linguistic Acceptability [7.524375463656369]
言語アクセプタビリティの多言語評価 -- MELA -- 10言語を対象とする46Kのサンプルを用いて、言語アクセプタビリティに関する最も大きなベンチマークを提示する。
多言語解釈可能性の追求において, 微調整XLM-Rを用いた探索実験を行った。
言語間移動実験は、受容可能性判定における伝達が非自明であることを示す。
論文 参考訳(メタデータ) (2023-11-15T15:25:28Z) - Beyond Static Models and Test Sets: Benchmarking the Potential of
Pre-trained Models Across Tasks and Languages [15.373725507698591]
本稿は,多言語評価における既存の実践を信頼できないものにし,言語環境全体にわたるMMLMの性能の全体像を提示していないことを論じる。
我々は,NLPタスクのパフォーマンス予測における最近の研究が,多言語NLPにおけるベンチマークの修正における潜在的な解決策となることを示唆する。
実験データと4つの異なる多言語データセットのケーススタディを比較し、これらの手法が翻訳に基づくアプローチとよく一致している性能の信頼性を推定できることを示した。
論文 参考訳(メタデータ) (2022-05-12T20:42:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。