論文の概要: Form and Meaning in Intrinsic Multilingual Evaluations
- arxiv url: http://arxiv.org/abs/2601.10580v1
- Date: Thu, 15 Jan 2026 16:53:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.231825
- Title: Form and Meaning in Intrinsic Multilingual Evaluations
- Title(参考訳): 内在的多言語評価における形式と意味
- Authors: Wessel Poelman, Miryam de Lhoneux,
- Abstract要約: 条件付き言語モデルの本質的な評価指標は、単言語と多言語の両方で広く使われている。
これらのメトリクスはモノリンガルな設定での使用や比較は比較的簡単ですが、マルチリンガルな設定ではいくつかの仮定に依存します。
単言語モデルと多言語モデルの両方を用いた2つのマルチ並列コーパスにおける6つのメトリクスを用いた実験を行った。
- 参考スコア(独自算出の注目度): 6.098360938232067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intrinsic evaluation metrics for conditional language models, such as perplexity or bits-per-character, are widely used in both mono- and multilingual settings. These metrics are rather straightforward to use and compare in monolingual setups, but rest on a number of assumptions in multilingual setups. One such assumption is that comparing the perplexity of CLMs on parallel sentences is indicative of their quality since the information content (here understood as the semantic meaning) is the same. However, the metrics are inherently measuring information content in the information-theoretic sense. We make this and other such assumptions explicit and discuss their implications. We perform experiments with six metrics on two multi-parallel corpora both with mono- and multilingual models. Ultimately, we find that current metrics are not universally comparable. We look at the form-meaning debate to provide some explanation for this.
- Abstract(参考訳): パープレキシティやビット・パー・キャラクタといった条件付き言語モデルの本質的な評価指標は、単言語と多言語の両方で広く使われている。
これらのメトリクスはモノリンガルな設定での使用や比較は比較的簡単ですが、マルチリンガルな設定ではいくつかの仮定に依存します。
そのような仮定の一つは、情報内容(意味的意味として理解されている)が同じであるため、並行文に対するCLMの難易度を比較することは、その品質の指標であるということである。
しかし、これらの指標は本質的に情報理論の意味で情報内容を測定するものである。
我々は、これや他の仮定を明確化し、それらの意味について論じる。
単言語モデルと多言語モデルの両方を用いた2つのマルチ並列コーパスにおける6つのメトリクスを用いた実験を行った。
最終的に、現在のメトリクスは普遍的に比較できないことが分かりました。
我々は、フォームの意味する議論を見て、これについていくつかの説明をする。
関連論文リスト
- Beyond Literal Token Overlap: Token Alignability for Multilinguality [53.680462160878925]
我々は,多言語トークン化の効果と品質を理解する新しい方法として,サブワードトークン整合性を提案する。
特に、この指標は、スクリプトが異なっており、リテラルトークンの重複が低い場合、多言語性を予測する。
言語間移動のための最適な言語ペアを特定するために,我々のサブワードトークン整合性指標を推奨する。
論文 参考訳(メタデータ) (2025-02-10T13:50:12Z) - Exploring Anisotropy and Outliers in Multilingual Language Models for
Cross-Lingual Semantic Sentence Similarity [64.18762301574954]
これまでの研究によると、文脈言語モデルによって出力される表現は静的な型埋め込みよりも異方性が高い。
これは単言語モデルと多言語モデルの両方に当てはまるように思われるが、多言語コンテキストでの作業はあまり行われていない。
複数の事前訓練された多言語言語モデルにおける外乱次元とその異方性との関係について検討する。
論文 参考訳(メタデータ) (2023-06-01T09:01:48Z) - Exploring Representational Disparities Between Multilingual and Bilingual Translation Models [16.746335565636976]
多言語モデルにおける言語ペアの中には、バイリンガルモデル、特に1対多の翻訳設定において、パフォーマンスが悪くなるものもある。
与えられた言語対に対して、その多言語モデルデコーダ表現は一貫して等方的ではなく、同等のバイリンガルモデルデコーダ表現よりも少ない次元を占有していることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:46:18Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - On the Intrinsic and Extrinsic Fairness Evaluation Metrics for
Contextualized Language Representations [74.70957445600936]
様々な自然言語処理タスクの公平度を測定するために、複数のメトリクスが導入された。
これらの指標は,(1)下流アプリケーションにおけるフェアネスを評価する遠因性指標と,(2)上流言語表現モデルにおけるフェアネスを推定する遠因性指標の2つのカテゴリに大別することができる。
論文 参考訳(メタデータ) (2022-03-25T22:17:43Z) - InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation [27.129551973093008]
InfoLMは、文字列ベースのメトリクスとして見ることのできる、トレーニングされていないメトリクスのファミリーです。
このメトリクスの族は、InfoLMを様々な評価基準に適応させる情報測度も活用している。
論文 参考訳(メタデータ) (2021-12-02T20:09:29Z) - Semantic Answer Similarity for Evaluating Question Answering Models [2.279676596857721]
SASは、意味応答の類似度を推定するためのクロスエンコーダベースの計量である。
近年の変圧器モデルに基づく意味的類似度指標は,従来の語彙的類似度指標よりも人間の判断とよく相関していることを示す。
論文 参考訳(メタデータ) (2021-08-13T09:12:27Z) - Complete Multilingual Neural Machine Translation [44.98358050355681]
本稿では、英語中心の並列コーパスを充実させるために、多方向整列例を用いて検討する。
このような接続パターンでMNMTを完全多言語ニューラルネットワーク翻訳(cMNMT)と呼ぶ。
対象言語のみに条件付けされた新たなトレーニングデータサンプリング戦略と組み合わせて、cMNMTは全ての言語ペアに対して競合翻訳品質を得る。
論文 参考訳(メタデータ) (2020-10-20T13:03:48Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。