論文の概要: CompactQE: Interpretable Translation Quality Estimation via Small Open-Weight LLMs
- arxiv url: http://arxiv.org/abs/2605.15763v1
- Date: Fri, 15 May 2026 09:22:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.232671
- Title: CompactQE: Interpretable Translation Quality Estimation via Small Open-Weight LLMs
- Title(参考訳): CompactQE: 小型オープンウェイトLCMによる解釈可能な翻訳品質評価
- Authors: Kamil Guttmann, Zofia Fraś, Artur Nowakowski, Krzysztof Jassem,
- Abstract要約: 機械翻訳における最先端の品質評価は、大規模でプロプライエタリなLLMに依存している。
より小型のオープンソース LLM が,実行可能で費用効率が高く,プライバシ保護の代替手段であることを実証する。
- 参考スコア(独自算出の注目度): 0.5599792629509229
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current state-of-the-art Quality Estimation (QE) in machine translation relies on massive, proprietary LLMs, raising data privacy concerns. We demonstrate that smaller, open-source LLMs (<30B parameters) are a viable, cost-effective and privacy-preserving alternative. Using a single-pass prompting strategy, our models simultaneously generate quality scores, MQM error annotations, suggested error corrections, and full post-editions. Our analysis shows these models achieve highly competitive system-level correlations with human judgments that outperform traditional neural metrics, fine-tuned models, and human inter-annotator agreement, effectively approximating the capabilities of much larger proprietary LLMs.
- Abstract(参考訳): 機械翻訳における現在の最先端の品質評価(QE)は、大規模でプロプライエタリなLLMに依存し、データのプライバシに関する懸念を高めている。
より小型のオープンソース LLM (<30B パラメータ) が,実用的で費用対効果,プライバシ保護の代替手段であることを実証した。
単一パスプロンプト戦略を用いて、私たちのモデルは品質スコア、MQMエラーアノテーション、提案されたエラー修正、完全な後編集を同時に生成します。
分析の結果、これらのモデルは従来の神経メトリクス、微調整モデル、およびアノテーション間の合意よりも優れているという人間の判断と高い競争力を持つシステムレベルの相関を達成し、より大きなプロプライエタリなLLMの能力を効果的に近似した。
関連論文リスト
- Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation [14.465019747508604]
制約付き最大自由度推定(MLE)に基づくLLM故障率推定の新しい,実用的で効率的なアプローチを提案する。
我々は、予測パワー推論(PPI)のような最先端のベースラインに対して、包括的な実証研究を通じてアプローチを検証する。
論文 参考訳(メタデータ) (2026-03-11T21:48:40Z) - Decoupling Perception and Calibration: Label-Efficient Image Quality Assessment Framework [78.58395822978271]
LEAFはラベル効率の良い画像品質評価フレームワークである。
MLLM教師の知覚的品質の先行を軽量な学生回帰器に蒸留する。
提案手法は,強いMOS対応相関を維持しつつ,人間のアノテーションの必要性を著しく低減する。
論文 参考訳(メタデータ) (2026-01-28T15:15:17Z) - Uncertainty-Aware Collaborative System of Large and Small Models for Multimodal Sentiment Analysis [17.98292973608615]
マルチモーダル感情分析のための強力なMLLMと軽量なベースラインモデルを編成する新しい不確実性認識協調システム(U-ACS)を提案する。
提案手法は,スタンドアロンのMLLMに比べて計算資源のごく一部しか必要とせず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T16:01:58Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - Efficient Self-Improvement in Multimodal Large Language Models: A Model-Level Judge-Free Approach [31.654345704242512]
本稿では,新しいモデルレベルの判断自由自己改善フレームワークを提案する。
本手法では,検証ループにおけるMLLMの必要性を解消しつつ,制御されたフィードバック機構を用いる。
計算要求が大幅に小さく、精度とリコールの精度が向上する。
論文 参考訳(メタデータ) (2024-11-26T00:44:37Z) - Illuminating Blind Spots of Language Models with Targeted Agent-in-the-Loop Synthetic Data [9.982616173090264]
言語モデル(LM)は、様々なタスクにおいて顕著な精度を達成したが、高信頼の誤分類(UU)に弱いままである。
UUは機能領域の盲点にクラスタ化され、ハイリスクなアプリケーションに重大なリスクをもたらす。
知的エージェントを教師として利用し,UU型エラーを特徴付けることによって,盲点緩和に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-26T16:49:25Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。