論文の概要: Is Textual Similarity Invariant under Machine Translation? Evidence Based on the Political Manifesto Corpus
- arxiv url: http://arxiv.org/abs/2605.00618v1
- Date: Fri, 01 May 2026 12:41:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.949649
- Title: Is Textual Similarity Invariant under Machine Translation? Evidence Based on the Political Manifesto Corpus
- Title(参考訳): 機械翻訳におけるテキストの類似性は不変か? : 政治宣言コーパスに基づく証拠
- Authors: Daria Boratyn, Damian Brzyski, Albert Leśniak, Wojciech Łukasik, Maciej Rapacz, Jan Rybicki, Wojciech Słomczyński, Dariusz Stolicki,
- Abstract要約: 本稿では,機械翻訳において,段落埋め込みのコサイン類似性が不変であるかについて検討する。
我々は、EUのeTranslationサービスを通じて英語に翻訳された28の言語で、2800以上の政党プラットフォームからなるコーパスマニフェストを使用している。
- 参考スコア(独自算出の注目度): 1.5364755220261122
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We investigate the extent to which cosine similarity between paragraph embeddings is invariant under machine translation, using the Manifesto Corpus of over 2,800 political party platforms in 28 languages translated to English via the EU eTranslation service. Rather than measuring translation-induced semantic shift directly we measure the stability of pairwise similarity relationships across embedding models, and use inter-model disagreement on original-language text as a calibrated invariance threshold. This yields a per-language non-inferiority test for four hypotheses about how translation interacts with embedding choice, with verdicts that distinguish languages where translation demonstrably preserves semantic structure from those where it demonstrably degrades it and from those where the available evidence does not resolve the question. The framework is corpus- and pipeline-agnostic and extends naturally to downstream tasks. Applied to our data, it identifies ten languages with translation invariance and four with detectable distortion.
- Abstract(参考訳): 本研究では,EUのeTranslationサービスを通じて28言語に翻訳された28の言語において,2,800以上の政党プラットフォームからなるマニフェストコーパスを用いて,段落埋め込みのコサイン類似性が機械翻訳の下で不変であるかについて検討する。
翻訳によるセマンティックシフトを直接測定するのではなく、埋め込みモデル間のペアワイズ類似性関係の安定性を測定し、原文におけるモデル間不一致をキャリブレーションされた不変しきい値として利用する。
これは、翻訳が組込み選択とどのように相互作用するかについての4つの仮説に対する言語ごとの非偽性テストであり、翻訳が意味的構造を実証的に保存する言語と、それが明白に劣化する言語と、利用可能な証拠が解決しない言語とを区別する評定である。
フレームワークはコーパスとパイプラインに依存しないもので、ダウンストリームタスクに自然に拡張される。
我々のデータに適用すると、翻訳不変性を持つ10言語と検出可能な歪みを持つ4言語が識別される。
関連論文リスト
- XQ-MEval: A Dataset with Cross-lingual Parallel Quality for Benchmarking Translation Metrics [64.77152900881724]
9つの翻訳方向をカバーする半自動構築データセットであるXQ-MEvalを提案する。
MQMで定義されたエラーを金の翻訳に自動的に注入し、信頼性のためにネイティブスピーカーによってフィルタリングし、エラーをマージして、制御可能な品質で擬似翻訳を生成する。
XQ-MEvalを用いて, 平均的判断と人的判断の矛盾を明らかにする。
論文 参考訳(メタデータ) (2026-04-16T12:27:10Z) - Cross-Lingual Stability of LLM Judges Under Controlled Generation: Evidence from Finno-Ugric Languages [0.22009842278462158]
大規模言語モデル(LLM)の言語間評価は、典型的には、真のモデルの性能差と測定不安定性の2つの要因を混同する。
対象言語が異なる場合に生成条件を一定に保って評価信頼性を評価する。
本研究は, 形態学的に豊かな言語における談話レベルの評価には, ゼロショット・ジャッジ・トランスファーが信頼できないことを示唆している。
論文 参考訳(メタデータ) (2026-02-02T16:27:32Z) - Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。
テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文 参考訳(メタデータ) (2025-05-26T07:21:20Z) - PESTS: Persian_English Cross Lingual Corpus for Semantic Textual Similarity [5.439505575097552]
言語間セマンティック類似性モデルでは、言語間セマンティック類似性データセットが利用できないため、機械翻訳を用いる。
ペルシャ語は低資源言語の1つであり、二つの言語の文脈を理解できるモデルの必要性は、これまで以上に感じられる。
本稿では,ペルシア語と英語の文間の意味的類似性のコーパスを,言語専門家を用いて初めて作成した。
論文 参考訳(メタデータ) (2023-05-13T11:02:50Z) - Interactive-Chain-Prompting: Ambiguity Resolution for Crosslingual
Conditional Generation with Interaction [38.73550742775257]
ある言語のソースクエリは、追加のコンテキストなしで、別の言語でいくつかの翻訳オプションを生成することができる。
あいまいさに対処するサブプロブレムのリストに変換を還元する対話型チェーンプロンプトを提案する。
異なる言語現象を示すデータセットを作成し、4つの言語の推論におけるあいまいさを導く。
論文 参考訳(メタデータ) (2023-01-24T21:08:13Z) - Cross-Linguistic Syntactic Difference in Multilingual BERT: How Good is
It and How Does It Affect Transfer? [50.48082721476612]
マルチリンガルBERT (mBERT) は, 言語間シンタクティックな機能を示した。
我々は,mBERTから引き起こされる文法的関係の分布を,24言語に類型的に異なる文脈で検討した。
論文 参考訳(メタデータ) (2022-12-21T09:44:08Z) - The Case for Translation-Invariant Self-Attention in Transformer-Based
Language Models [11.148662334602639]
既存の言語モデルの位置埋め込みを分析し、翻訳不変性の強い証拠を見出す。
本稿では,トークン間の相対的な位置を解釈可能な方法で記述する翻訳不変自己アテンション(TISA)を提案する。
論文 参考訳(メタデータ) (2021-06-03T15:56:26Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。