論文の概要: JP-TL-Bench: Anchored Pairwise LLM Evaluation for Bidirectional Japanese-English Translation
- arxiv url: http://arxiv.org/abs/2601.00223v1
- Date: Thu, 01 Jan 2026 06:09:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.322034
- Title: JP-TL-Bench: Anchored Pairwise LLM Evaluation for Bidirectional Japanese-English Translation
- Title(参考訳): JP-TL-Bench:日本語・英語の双方向翻訳における経時的LLM評価
- Authors: Leonard Lin, Adam Lensenmayer,
- Abstract要約: JP-TL-Bench(JP-TL-Bench)は、日本語翻訳システムの反復的開発を導くためのベンチマークである。
これは、固定されたバージョン付きアンカーセットに対して、基準のないペアワイズ比較によって候補モデルを評価する。
各候補は、同じ凍結アンカーセットに対してスコアされるので、スコアは、同じベースセット、判定、アグリゲーションコードに対して構造的に安定である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce JP-TL-Bench, a lightweight, open benchmark designed to guide the iterative development of Japanese-English translation systems. In this context, the challenge is often "which of these two good translations is better?" rather than "is this translation acceptable?" This distinction matters for Japanese-English, where subtle choices in politeness, implicature, ellipsis, and register strongly affect perceived naturalness. JP-TL-Bench uses a protocol built to make LLM judging both reliable and affordable: it evaluates a candidate model via reference-free, pairwise LLM comparisons against a fixed, versioned anchor set. Pairwise results are aggregated with a Bradley-Terry model and reported as win rates plus a normalized 0-10 "LT" score derived from a logistic transform of fitted log-strengths. Because each candidate is scored against the same frozen anchor set, scores are structurally stable given the same base set, judge, and aggregation code.
- Abstract(参考訳): 本稿では,日本語翻訳システムの反復的発展を導くために設計された,軽量でオープンなベンチマークJP-TL-Benchを紹介する。
この文脈では、「この2つの良い翻訳はどちらが良いのか?」というよりも「この翻訳は許容できるのか?」という問題が多い。
この区別は、丁寧さ、不合理さ、エリプシス、レジスターの微妙な選択が知覚自然性に強く影響を及ぼす日英にとって重要である。
JP-TL-Bench は LLM を信頼性と価格の両方を判断できるように構築されたプロトコルを使用する。
Pairwise results were aggregateed with a Bradley-Terry model and reported as win rate plus a normalized 0-10 "LT" score from a logistic transformation of fitted log-strengths。
各候補は、同じ凍結アンカーセットに対してスコアされるので、スコアは、同じベースセット、判定、アグリゲーションコードに対して構造的に安定である。
関連論文リスト
- NL in the Middle: Code Translation with LLMs and Intermediate Representations [56.77064674776534]
大きな言語モデル(LLM)はバグのあるコード翻訳を生成する。
翻訳精度を向上させるための有望な道の1つは中間表現である。
LLMに基づくコード翻訳が中間表現の恩恵を受けるかどうかを検討する。
論文 参考訳(メタデータ) (2025-07-11T14:29:21Z) - Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data [64.4458540273004]
言語モデル(LLM)の単言語データと本質的な多言語知識のみを活用するセルフプレイフレームワークを提案する。
実験により、このアプローチは大規模並列データに基づいて訓練されたモデルの性能と一致するだけでなく、非英語翻訳の方向でも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-20T16:20:30Z) - Lost in Literalism: How Supervised Training Shapes Translationese in LLMs [51.04435855143767]
大規模言語モデル(LLM)は機械翻訳において顕著な成功を収めた。
しかし、過度にリテラルと不自然な翻訳を特徴とする翻訳は、依然として永続的な課題である。
我々は、黄金の基準を磨き、不自然なトレーニングインスタンスをフィルタリングするなど、これらのバイアスを軽減する方法を導入する。
論文 参考訳(メタデータ) (2025-03-06T12:14:45Z) - Large Language Models for Persian $ \leftrightarrow $ English Idiom Translation [5.689194193929357]
大規模言語モデル(LLM)は、ニューラルマシン翻訳(NMT)システムと比較して、図形言語を翻訳する優れた能力を示している。
本稿ではペルシャ語$rightarrow$ Englishと英語$rightarrow$Persian翻訳の慣用表現を含む2つのパラレルデータセットを紹介する。
オープンソースとクローズドソースのLLM, NMTモデルおよびそれらの組み合わせを評価した。
クロード3.5-ソネットは、両方の翻訳方向において優れた結果をもたらす。
論文 参考訳(メタデータ) (2024-12-13T09:29:27Z) - Language Models and Cycle Consistency for Self-Reflective Machine Translation [1.79487674052027]
我々は、ソース言語Aからターゲット言語Bへの複数の翻訳候補を生成し、その後、これらの候補を元の言語Aに翻訳する。
トークンレベルの精度や精度などの指標を用いて、原文と裏文の周期一貫性を評価することにより、言語Bの翻訳品質を暗黙的に推定する。
各原文に対して、翻訳候補を、原文と最適なサイクル整合性で同定し、最終回答とする。
論文 参考訳(メタデータ) (2024-11-05T04:01:41Z) - MIRAGE-Bench: Automatic Multilingual Benchmark Arena for Retrieval-Augmented Generation Systems [43.19298196163617]
両世界の長所を結合する簡単な手法を提案する。
MIRAGE-Benchは、ウィキペディアの18の多言語のための合成アリーナベースのRAGベンチマークである。
論文 参考訳(メタデータ) (2024-10-17T16:18:49Z) - LLM-based Translation Inference with Iterative Bilingual Understanding [52.46978502902928]
大規模言語モデル(LLM)の言語間機能に基づいた,新しい反復的バイリンガル理解翻訳法を提案する。
LLMの言語横断的能力により、ソース言語とターゲット言語を別々にコンテキスト理解することが可能になる。
提案したIBUTは、いくつかの強力な比較法より優れている。
論文 参考訳(メタデータ) (2024-10-16T13:21:46Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - TEaR: Improving LLM-based Machine Translation with Systematic Self-Refinement [26.26493253161022]
大規模言語モデル(LLM)は機械翻訳(MT)において印象的な結果を得た
我々は,体系的LLMに基づく自己精製翻訳フレームワーク,textbfTEaRを紹介する。
論文 参考訳(メタデータ) (2024-02-26T07:58:12Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。