論文の概要: Litmus (Re)Agent: A Benchmark and Agentic System for Predictive Evaluation of Multilingual Models
- arxiv url: http://arxiv.org/abs/2604.08970v1
- Date: Fri, 10 Apr 2026 05:16:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.697373
- Title: Litmus (Re)Agent: A Benchmark and Agentic System for Predictive Evaluation of Multilingual Models
- Title(参考訳): Litmus (Re)Agent:多言語モデルの予測評価のためのベンチマークとエージェントシステム
- Authors: Avni Mittal, Shanu Kumar, Sandipan Dandapat, Monojit Choudhury,
- Abstract要約: 6つのタスクと5つのエビデンスシナリオにまたがる1500の質問のベンチマークを導入する。
このベンチマークは、アクセス可能な証拠を根拠の真理から切り離し、不完全な文献証拠から欠落した結果を推測しなければならないシステムの評価を可能にする。
また,DAGをベースとしたエージェントシステムであるLitmus (Re)Agentについても,クエリを仮説に分解し,エビデンスを取得し,特徴認識アグリゲーションを通じて予測を合成する。
- 参考スコア(独自算出の注目度): 18.040787413825793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study predictive multilingual evaluation: estimating how well a model will perform on a task in a target language when direct benchmark results are missing. This problem is common in multilingual deployment, where evaluation coverage is sparse and published evidence is uneven across languages, tasks, and model families. We introduce a controlled benchmark of 1,500 questions spanning six tasks and five evidence scenarios. The benchmark separates accessible evidence from ground truth, enabling evaluation of systems that must infer missing results from incomplete literature evidence. We also present Litmus (Re)Agent, a DAG-orchestrated agentic system that decomposes queries into hypotheses, retrieves evidence, and synthesises predictions through feature-aware aggregation. Across six systems, Litmus (Re)Agent achieves the best overall performance, with the largest gains in transfer-heavy scenarios where direct evidence is weak or absent. These results show that structured agentic reasoning is a promising approach to multilingual performance estimation under incomplete evidence.
- Abstract(参考訳): 予測多言語評価: 直接ベンチマーク結果が欠落している場合, 対象言語のタスクにおいて, モデルがどの程度うまく機能するかを推定する。
この問題は多言語展開において一般的であり、評価範囲は狭く、言語、タスク、モデルファミリー間で不均一な証拠が公表されている。
6つのタスクと5つのエビデンスシナリオにまたがる1500の質問の制御ベンチマークを導入する。
このベンチマークは、アクセス可能な証拠を根拠の真理から切り離し、不完全な文献証拠から欠落した結果を推測しなければならないシステムの評価を可能にする。
また,DAGをベースとしたエージェントシステムであるLitmus (Re)Agentについても,クエリを仮説に分解し,エビデンスを取得し,特徴認識アグリゲーションを通じて予測を合成する。
6つのシステムにわたって、Litmus (Re)Agentは、直接的な証拠が弱い、あるいは欠落しているトランスファー重シナリオにおいて、最高のパフォーマンスを達成する。
これらの結果から,構造化エージェント推論は不完全証拠下での多言語性能推定に有望なアプローチであることが示された。
関連論文リスト
- Asm2SrcEval: Evaluating Large Language Models for Assembly-to-Source Code Translation [4.45354703148321]
アセンブリ・トゥ・ソースのコード翻訳はリバースエンジニアリング、サイバーセキュリティ、ソフトウェアメンテナンスにおいて重要なタスクである。
本稿では,アセンブリ・トゥ・ソース・トランスフォーメーションにおける5つの最先端大規模言語モデルの包括的評価について述べる。
論文 参考訳(メタデータ) (2025-11-28T12:40:30Z) - When Scale Meets Diversity: Evaluating Language Models on Fine-Grained Multilingual Claim Verification [14.187153195380668]
大規模言語モデルは、多くのNLPタスクにまたがる顕著な能力を持つが、ニュアンス付き分類スキームを用いた多言語クレーム検証の有効性は、まだ検討されていない。
X-Factデータセットでは、7つの異なる精度カテゴリを持つ25言語にまたがる5つの最先端言語モデルを評価する。
驚くべきことに、XLM-R は全試験 LLM よりかなり優れており、57.7% のマクロF1 を 16.9% の最高の LLM 性能と比較すると達成している。
論文 参考訳(メタデータ) (2025-07-28T10:49:04Z) - Adapting Language Models to Indonesian Local Languages: An Empirical Study of Language Transferability on Zero-Shot Settings [1.1556013985948772]
インドネシアの低リソース言語への事前学習言語モデルの転送性を評価する。
私たちはターゲット言語を、見る、見る、見る、見る、見えない3つのカテゴリに分類します。
マルチ言語モデルは、目に見える言語で、部分的に見られる言語では適度に、目に見えない言語では劣る。
対象言語にラベル付きデータを必要としないため,MAD-Xは性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-07-02T12:17:55Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Multilingual and Multi-topical Benchmark of Fine-tuned Language models and Large Language Models for Check-Worthy Claim Detection [1.4779899760345434]
本研究では,(1)微調整言語モデルと(2)チェック価値のあるクレーム検出タスクにおける大規模言語モデルの性能を比較した。
様々なソースやスタイルのテキストからなる多言語・多言語データセットを構築した。
論文 参考訳(メタデータ) (2023-11-10T15:36:35Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。