論文の概要: On Temperature-Constrained Non-Deterministic Machine Translation: Potential and Evaluation
- arxiv url: http://arxiv.org/abs/2601.13729v1
- Date: Tue, 20 Jan 2026 08:39:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.229297
- Title: On Temperature-Constrained Non-Deterministic Machine Translation: Potential and Evaluation
- Title(参考訳): 温度制約非決定論的機械翻訳について:可能性と評価
- Authors: Weichuan Wang, Mingyang Liu, Linqi Song, Chen Ma,
- Abstract要約: 我々は,現代機械翻訳システムを体系的に評価し,温度制約のない非決定性MT(ND-MT)を別の現象として同定した。
ND-MTは,システム性能評価における新たな課題を導入し,特に,D-MT用に設計された評価フレームワークは,ND-MTに適用した場合に一貫した評価結果を得ることができない。
本研究では,ロバストなND-MTを選択するための評価指標の信頼性を自動評価するPrestantoSample戦略を提案する。
- 参考スコア(独自算出の注目度): 27.423704082653675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the non-deterministic properties of language models have garnered considerable attention and have shown a significant influence on real-world applications. However, such properties remain under-explored in machine translation (MT), a complex, non-deterministic NLP task. In this study, we systematically evaluate modern MT systems and identify temperature-constrained Non-Deterministic MT (ND-MT) as a distinct phenomenon. Additionally, we demonstrate that ND-MT exhibits significant potential in addressing the multi-modality issue that has long challenged MT research and provides higher-quality candidates than Deterministic MT (D-MT) under temperature constraints. However, ND-MT introduces new challenges in evaluating system performance. Specifically, the evaluation framework designed for D-MT fails to yield consistent evaluation results when applied to ND-MT. We further investigate this emerging challenge by evaluating five state-of-the-art ND-MT systems across three open datasets using both lexical-based and semantic-based metrics at varying sampling sizes. The results reveal a Buckets effect across these systems: the lowest-quality candidate generated by ND-MT consistently determines the overall system ranking across different sampling sizes for all reasonable metrics. Furthermore, we propose the ExpectoSample strategy to automatically assess the reliability of evaluation metrics for selecting robust ND-MT.
- Abstract(参考訳): 近年,言語モデルの非決定論的特性が注目され,実世界の応用に大きな影響を与えている。
しかし、そのような性質は、複雑な非決定論的NLPタスクである機械翻訳(MT)において未探索のままである。
本研究では,現代のMTシステムを体系的に評価し,温度制約のない非決定性MT(ND-MT)を別の現象として同定する。
さらに、ND-MTは、長年MT研究に挑戦し、温度制約下での決定論的MT(D-MT)よりも高品質な候補を提供するマルチモダリティ問題に対処する大きな可能性を示す。
しかし,ND-MTはシステム性能評価における新たな課題を導入している。
具体的には, D-MT のための評価フレームワークは, ND-MT に適用した場合に一貫した評価結果を得ることができない。
さらに,3つのオープンデータセットにまたがる5つの最先端ND-MTシステムの評価を,様々なサンプリングサイズで語彙ベースおよび意味ベースメトリクスを用いて行うことで,この新たな課題について検討する。
ND-MTが生成した最低品質の候補は、すべての合理的な指標に対して異なるサンプリングサイズでシステム全体のランキングを決定する。
さらに、ロバストなND-MTを選択するための評価指標の信頼性を自動評価するPrestantoSample戦略を提案する。
関連論文リスト
- Beyond Literal Mapping: Benchmarking and Improving Non-Literal Translation Evaluation [57.11989521509119]
本稿では,特殊なサブエージェントを起動するリフレクティブコアエージェントを中心に,エージェント翻訳評価フレームワークを提案する。
実験の結果、RATEの有効性が示され、現在の測定値と比較して少なくとも3.2メタスコアの改善が達成された。
論文 参考訳(メタデータ) (2026-01-12T09:03:42Z) - MT-LENS: An all-in-one Toolkit for Better Machine Translation Evaluation [1.7775825387442485]
MT-LENSは、様々なタスクで機械翻訳(MT)システムを評価するために設計されたフレームワークである。
ユーザーフレンドリーなプラットフォームを提供し、システムを比較し、翻訳をインタラクティブな視覚化で分析する。
論文 参考訳(メタデータ) (2024-12-16T09:57:28Z) - Improving Machine Translation with Large Language Models: A Preliminary Study with Cooperative Decoding [73.32763904267186]
大きな言語モデル(LLM)は、優れた翻訳品質を達成する可能性を示す。
我々は,NMTシステムを事前翻訳モデルとして扱うCooperative Decoding(CoDec)と,MT指向LLMを補足解として提案する。
論文 参考訳(メタデータ) (2023-11-06T03:41:57Z) - vONTSS: vMF based semi-supervised neural topic modeling with optimal
transport [6.874745415692134]
この研究は、von Mises-Fisher (vMF) ベースの変分オートエンコーダと最適なトランスポートを用いた半教師付きニューラルトピックモデリング手法 vONTSS を提案する。
実験により、vONTSSは、分類精度と多様性において、既存の半教師付きトピックモデリング手法よりも優れていることが示された。
また、類似の分類性能を達成しつつ、最先端の弱教師付きテキスト分類法よりもはるかに高速である。
論文 参考訳(メタデータ) (2023-07-03T04:23:41Z) - HilMeMe: A Human-in-the-Loop Machine Translation Evaluation Metric
Looking into Multi-Word Expressions [6.85316573653194]
言語的に動機づけたHuman-in-the-loop評価尺度の設計と実装について,慣用的および用語的マルチワード表現(MWEs)について述べる。
MWEは、MWEを正確で意味のある等価な方法で認識・翻訳する能力を調べることで、異なるMTシステムを区別する主要な要因の1つである。
論文 参考訳(メタデータ) (2022-11-09T21:15:40Z) - Batch-Ensemble Stochastic Neural Networks for Out-of-Distribution
Detection [55.028065567756066]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイすることの重要性から、マシンラーニングコミュニティから注目を集めている。
本稿では,特徴量の分布をモデル化した不確実な定量化手法を提案する。
バッチアンサンブルニューラルネットワーク(BE-SNN)の構築と機能崩壊問題の克服を目的として,効率的なアンサンブル機構,すなわちバッチアンサンブルを組み込んだ。
We show that BE-SNNs yield superior performance on the Two-Moons dataset, the FashionMNIST vs MNIST dataset, FashionM。
論文 参考訳(メタデータ) (2022-06-26T16:00:22Z) - Nearest Neighbor Knowledge Distillation for Neural Machine Translation [50.0624778757462]
k-nearest-neighbor machine translation (NN-MT) は機械翻訳タスクにおける最先端の結果の多くを達成している。
NN-KDはベースNMTモデルをトレーニングし、NNの知識を直接学習する。
論文 参考訳(メタデータ) (2022-05-01T14:30:49Z) - Better Uncertainty Quantification for Machine Translation Evaluation [17.36759906285316]
我々は、新しい異種回帰、発散最小化、および直接不確実性予測目標を用いてCOMETメトリックを訓練する。
実験の結果、WMT20とWMT21のメトリクスタスクデータセットが改善され、計算コストが大幅に削減された。
論文 参考訳(メタデータ) (2022-04-13T17:49:25Z) - Difficulty-Aware Machine Translation Evaluation [19.973201669851626]
本稿では,新しい難易度対応機械翻訳評価指標を提案する。
ほとんどのMTシステムで予測できない翻訳は難解なものとして扱われ、最終的なスコア関数に大きな重みが割り当てられる。
提案手法は,MTシステムすべてが非常に競争力がある場合でも良好に機能する。
論文 参考訳(メタデータ) (2021-07-30T02:45:36Z) - Understanding Learning Dynamics for Neural Machine Translation [53.23463279153577]
ロス・チェンジ・アロケーション (LCA)citeplan 2019-loss-change-allocation を用いてNMTの学習力学を理解することを提案する。
LCAは更新毎にデータセット全体の勾配を計算する必要があるため、NMTシナリオで実際に実施するための近似を提示する。
シミュレーション実験により, 近似計算は効率的であり, 実験により一貫した結果が得られることを示した。
論文 参考訳(メタデータ) (2020-04-05T13:32:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。