論文の概要: On Non-interactive Evaluation of Animal Communication Translators
- arxiv url: http://arxiv.org/abs/2510.15768v1
- Date: Fri, 17 Oct 2025 15:56:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.69629
- Title: On Non-interactive Evaluation of Animal Communication Translators
- Title(参考訳): 動物コミュニケーショントランスレータの非インタラクティブ評価について
- Authors: Orr Paradise, David F. Gruber, Adam Tauman Kalai,
- Abstract要約: これは機械翻訳品質評価(MTQE)の例であり、参照翻訳は使用できない。
その考え方は、動物のコミュニケーションを翻訳し、ターンバイターンし、結果の翻訳が置換されるよりも順番に意味があるかを評価することである。
- 参考スコア(独自算出の注目度): 8.958679534486855
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: If you had an AI Whale-to-English translator, how could you validate whether or not it is working? Does one need to interact with the animals or rely on grounded observations such as temperature? We provide theoretical and proof-of-concept experimental evidence suggesting that interaction and even observations may not be necessary for sufficiently complex languages. One may be able to evaluate translators solely by their English outputs, offering potential advantages in terms of safety, ethics, and cost. This is an instance of machine translation quality evaluation (MTQE) without any reference translations available. A key challenge is identifying ``hallucinations,'' false translations which may appear fluent and plausible. We propose using segment-by-segment translation together with the classic NLP shuffle test to evaluate translators. The idea is to translate animal communication, turn by turn, and evaluate how often the resulting translations make more sense in order than permuted. Proof-of-concept experiments on data-scarce human languages and constructed languages demonstrate the potential utility of this evaluation methodology. These human-language experiments serve solely to validate our reference-free metric under data scarcity. It is found to correlate highly with a standard evaluation based on reference translations, which are available in our experiments. We also perform a theoretical analysis suggesting that interaction may not be necessary nor efficient in the early stages of learning to translate.
- Abstract(参考訳): もしあなたがAI Whale-to- English翻訳器を持っているなら、どのようにしてそれが機能しているかどうかを検証することができるだろうか?
動物と相互作用するか、温度などの地上観測に頼る必要があるのか?
十分に複雑な言語では、相互作用や観察さえ必要とされないことを示唆する理論的および概念実証の実験的な証拠を提供する。
英語のアウトプットによってのみ翻訳者を評価することができ、安全性、倫理、コストの面で潜在的な利点を提供することができるかもしれない。
これは機械翻訳品質評価(MTQE)の例であり、参照翻訳は使用できない。
鍵となる課題は'hallucinations' の偽訳を識別することである。
我々は,古典的NLPシャッフルテストとともにセグメント・バイ・セグメンション・トランスフォーメーションを用いて翻訳者を評価することを提案する。
その考え方は、動物のコミュニケーションを翻訳し、ターンバイターンし、結果の翻訳が置換されるよりも順番に意味があるかを評価することである。
データスカースな人間の言語と構築された言語に関する概念実証実験は、この評価手法の潜在的有用性を示す。
これらの人間の言語実験は、データ不足下での基準自由度を検証するのにのみ役立ちます。
本実験では,基準翻訳に基づく標準評価と高い相関関係が得られた。
また, 翻訳の初期段階において, 対話は不要であり, 効率的ではないことを示唆する理論的分析を行った。
関連論文リスト
- Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - A Theory of Unsupervised Translation Motivated by Understanding Animal
Communication [7.748040467625809]
教師なし機械翻訳を解析するための理論的枠組みを提案する。
誤り率は言語複雑性と共通基盤の量と逆関係であることを示す。
このことは、コミュニケーションシステムが十分に複雑であれば、動物コミュニケーションの教師なし翻訳が実現可能であることを示唆している。
論文 参考訳(メタデータ) (2022-11-20T20:55:38Z) - Rethinking Round-Trip Translation for Machine Translation Evaluation [44.83568796515321]
ラウンドトリップ翻訳が参照なしで自動評価に利用できるという驚くべき発見を報告する。
ラウンドトリップ翻訳が複数の機械翻訳評価タスクに有用であることを示す。
論文 参考訳(メタデータ) (2022-09-15T15:06:20Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。