Fugu-MT 論文翻訳(概要): From Outliers to Errors: Auditing Pali-to-English LLM Translations with Multi-Reference Adjudication

論文の概要: From Outliers to Errors: Auditing Pali-to-English LLM Translations with Multi-Reference Adjudication

arxiv url: http://arxiv.org/abs/2606.01136v1
Date: Sun, 31 May 2026 10:15:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-02 21:34:29.273368
Title: From Outliers to Errors: Auditing Pali-to-English LLM Translations with Multi-Reference Adjudication
Title（参考訳）: 外部からエラーへ:多参照代名詞を用いたパリ語から英語へのLLM翻訳を聴取する
Authors: Máté Metzger, Nadnapang Phophichit, Hansa Dhammahaso,
Abstract要約: GPT-5.5は、クロード・ソネット4.6とジェミニ3.1 Proの2倍の信頼区間を持つ、最も低い偏差の主エラー率であった。グロク4.3は最大のアウトリー数と最も高い尾のメジャーエラー率(全体の27.6%、ドリフト3.0より74.4%)を持っていた。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Single-score translation metrics can conflate legitimate variation with error, a problem especially acute for classical languages where multiple defensible English renderings of the same passage coexist. We audit Pali-to-English output from four flagship large language models (LLMs): GPT-5.5, Claude Sonnet 4.6, Gemini 3.1 Pro, and Grok 4.3, on 1,700 passages from the Pali Canon, using three established human translations by Bhikkhu Sujato, Thanissaro Bhikkhu, and Bhikkhu Bodhi as a local reference envelope rather than a single gold standard. Each candidate's normalized embedding drift from the reference centroid serves as a triage signal, not an error label; the 1,203 candidates above a 1.5 drift threshold are then adjudicated by a blinded three-model LLM judge panel, calibrated against a 300-instance author-adjudicated validation set. Two results stand out. First, drift predicts severity rather than error per se: the major-error rate among adjudicated high-drift candidates rose monotonically from 7.9% in the 1.5-2.0 band to 51.6% above 3.0, while approximately 80% of 1.5-2.0 outliers were judged valid translation variations. Second, model differences were clearest in the high-drift tail: GPT-5.5 had the lowest adjudicated high-drift major-error rate, with confidence intervals overlapping those of Claude Sonnet 4.6 and Gemini 3.1 Pro; Grok 4.3 had both the largest outlier volume and the highest tail major-error rate (27.6% overall, 74.4% above drift 3.0). The dominant major-error categories (e.g. omission or truncation, doctrinal term errors) are precisely the failures most likely to mislead readers of doctrinal text. The contribution is a reusable audit design for classical-to-modern translation: define a local reference envelope from multiple human translators, use embedding drift to prioritize review, and adjudicate the flagged tail rather than treating outlier status as error.
Abstract（参考訳）: シングルスコア翻訳のメトリクスは誤りと正則な変動を説明できるが、これは特に同じ文節の英語の複数の固定可能なレンダリングが共存する古典言語では問題である。 GPT-5.5、Claude Sonnet 4.6、Gemini 3.1 Pro、Grok 4.3の4つの主要言語モデル(LLM)からのパリ・トゥ・イングリッシュ・アウトプットを、Bhikkhu Sujato、Tasissaro Bhikkhu、Bhikhu Bodhiの3つの確立した人文翻訳を用いて、Pali Canonから1,700のパスで監査する。各候補の基準セントロイドからの正規化埋め込みドリフトは、エラーラベルではなくトリアージ信号として機能し、1.5ドリフトしきい値を超える1,203の候補は、ブラインドされた3モデルLCM判定パネルによって調整され、300のインスタンス作者調整検証セットに対して校正される。 2つの結果が浮き彫りだ。まず、ドリフトはエラーではなく重大性を予測する: 偏見のある高ドリフト候補のメジャーエラー率は1.5-2.0帯の7.9%から3.0以上51.6%へと単調に上昇し、1.5-2.0の外れ値の約80%が有効な翻訳変種であると判断された。 GPT-5.5は、クロード・ソネット4.6とジェミニ3.1 Proの2倍の信頼区間を持ち、高いドリフト尾部ではモデル差が最も顕著であり、グロク4.3は最大のアウトリー・ボリュームと最高尾部メジャー・エラー・レート(合計27.6%、ドリフト3.0より74.4%高い)であった。主要なメジャー・エラー・カテゴリ(例えば、省略または切り離し、ドクトリンの項誤り)は、正確には、ドクトリンのテキストの読者を誤解させる可能性のある失敗である。このコントリビューションは、古典から現代への翻訳における再利用可能な監査設計であり、複数の人間の翻訳者からの局所的な参照エンベロープを定義し、埋め込みドリフトを使用してレビューを優先順位付けし、不整合ステータスをエラーとして扱うのではなく、フラグ付きテールを判断する。

関連論文リスト

Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。 RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文参考訳（メタデータ） (2026-05-20T19:08:38Z)
Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文参考訳（メタデータ） (2026-05-15T17:08:27Z)
DIA-HARM: Dialectal Disparities in Harmful Content Detection Across 50 English Dialects [6.107850985025956]
本稿では,50の英語方言における偽情報検出のための最初のベンチマークであるDIA-HARMを提案する。人間による方言の含有量は1.4-3.6%減少し、一方でAI生成された内容は安定している。私たちはDIA-HARMフレームワーク、D3コーパス、評価ツールをリリースします。
論文参考訳（メタデータ） (2026-04-07T01:43:48Z)
Benchmarking Bengali Dialectal Bias: A Multi-Stage Framework Integrating RAG-Based Translation and Human-Augmented RLAIF [0.3227658251731014]
大規模言語モデル(LLM)は、低リソース言語の方言に対する性能バイアスを頻繁に示している。ベンガル方言9方言を対象に,LLM質問応答における方言バイアスを評価するための2段階の枠組みを提案する。
論文参考訳（メタデータ） (2026-03-22T18:44:57Z)
From Black Box to Glass Box: Cross-Model ASR Disagreement to Prioto Review in Ambient AI Scribe Documentation [43.148402136307716]
異種ASRシステム間のクロスモデル不一致は、基準のない不確実性信号として機能する。商用APIとオープンソースエンジンにまたがる8つのASRシステムを備えた,50の公開医療用オーディオクリップを転写した。低アグリメント領域は内容の不一致に富み、高リスク質量のクインタイル全体では53.9%から73.9%に増加した。
論文参考訳（メタデータ） (2026-03-02T13:02:13Z)
HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam [63.84155758655084]
HumanityのLast Exam (HLE)は、フロンティアの大規模言語モデルを評価するために広く使われているベンチマークである。 HLE-Verifiedは,透過的検証プロトコルときめ細かい誤り分類法を備えたHLEの検証および改訂版である。我々は,HLEとHLE-Verifiedの7つの最先端言語モデルを評価し,平均7～10ポイントの絶対精度を観測した。
論文参考訳（メタデータ） (2026-02-15T02:50:15Z)
Moderating Harm: Benchmarking Large Language Models for Cyberbullying Detection in YouTube Comments [0.0]
本研究は,OpenAI GPT-4.1, Google Gemini 1.5 Pro, Anthropic Claude 3 Opusの3つの主要な言語モデルを,5,080コメントのコーパスでベンチマークする。 YouTubeのデータセットは、英語、アラビア語、インドネシア語で1,334件の有害メッセージと3,746件の有害メッセージで構成されている。
論文参考訳（メタデータ） (2025-05-25T01:28:30Z)
Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文参考訳（メタデータ） (2025-03-06T15:36:06Z)
Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文参考訳（メタデータ） (2021-07-23T17:11:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。