論文の概要: PragExTra: A Multilingual Corpus of Pragmatic Explicitation in Translation
- arxiv url: http://arxiv.org/abs/2511.02721v1
- Date: Tue, 04 Nov 2025 16:44:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.114659
- Title: PragExTra: A Multilingual Corpus of Pragmatic Explicitation in Translation
- Title(参考訳): PragExTra: 翻訳における実用的説明の多言語コーパス
- Authors: Doreen Osmelak, Koel Dutta Chowdhury, Uliana Sentsova, Cristina España-Bonet, Josef van Genabith,
- Abstract要約: 我々はPragExTraを紹介した。PragExTraは実用的明示のための最初の多言語コーパスと検出フレームワークである。
本研究は,Nullアライメントを用いて候補明示症例を特定し,人間のアノテーションを用いた能動的学習を用いて精査した。
その結果,エンティティとシステムレベルの明示が最も頻度が高いことがわかった。
- 参考スコア(独自算出の注目度): 12.24429799706733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Translators often enrich texts with background details that make implicit cultural meanings explicit for new audiences. This phenomenon, known as pragmatic explicitation, has been widely discussed in translation theory but rarely modeled computationally. We introduce PragExTra, the first multilingual corpus and detection framework for pragmatic explicitation. The corpus covers eight language pairs from TED-Multi and Europarl and includes additions such as entity descriptions, measurement conversions, and translator remarks. We identify candidate explicitation cases through null alignments and refined using active learning with human annotation. Our results show that entity and system-level explicitations are most frequent, and that active learning improves classifier accuracy by 7-8 percentage points, achieving up to 0.88 accuracy and 0.82 F1 across languages. PragExTra establishes pragmatic explicitation as a measurable, cross-linguistic phenomenon and takes a step towards building culturally aware machine translation. Keywords: translation, multilingualism, explicitation
- Abstract(参考訳): 翻訳者は、しばしば、新しい聴衆に暗黙の文化的意味を明示する背景の詳細を持つテキストを豊かにする。
この現象はプラグマティックな明示として知られ、翻訳理論において広く議論されてきたが、計算学的にモデル化されることはめったにない。
我々はPragExTraを紹介した。PragExTraは実用的明示のための最初の多言語コーパスと検出フレームワークである。
コーパスにはTED-MultiとEuroparlの8つの言語ペアが含まれており、エンティティ記述、測定変換、翻訳者によるコメントなどの追加が含まれている。
本研究は,Nullアライメントを用いて候補明示症例を特定し,人間のアノテーションを用いた能動的学習を用いて精査した。
その結果,エンティティとシステムレベルの明示が最も頻度が高く,アクティブラーニングにより分類器の精度が7~8ポイント向上し,最大0.88精度と0.82F1が言語全体で達成された。
PragExTraは、可測で言語横断的な現象として実用的明示を確立し、文化的に認識された機械翻訳を構築するための一歩を踏み出した。
キーワード:翻訳、多言語主義、明示
関連論文リスト
- Parallel Tokenizers: Rethinking Vocabulary Design for Cross-Lingual Transfer [13.630754537249707]
トークン化は多言語言語モデルの基盤を定義する。
新しいフレームワークは、単言語でトークンを訓練し、バイリンガル辞書や単語間翻訳を用いて語彙を徹底的に調整する。
論文 参考訳(メタデータ) (2025-10-07T17:05:49Z) - False Friends Are Not Foes: Investigating Vocabulary Overlap in Multilingual Language Models [53.01170039144264]
多言語コーパスで訓練されたサブワードトークンライザは、言語間で重複するトークンを自然に生成する。
トークンの重複は言語間転送を促進するのか、それとも言語間の干渉を導入するのか?
相反する語彙を持つモデルでは、重なり合う結果が得られます。
論文 参考訳(メタデータ) (2025-09-23T07:47:54Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - Meta-Learning a Cross-lingual Manifold for Semantic Parsing [75.26271012018861]
新しい言語をサポートするためにセマンティックをローカライズするには、効果的な言語間一般化が必要である。
本稿では,言語間移動において,最大サンプル効率で注釈付きセマンティックを学習するための一階メタ学習アルゴリズムを提案する。
ATIS上の6つの言語にまたがる結果は、ステップの組み合わせによって、各新言語におけるソーストレーニングデータの10パーセントを正確なセマンティクスでサンプリングできることを示している。
論文 参考訳(メタデータ) (2022-09-26T10:42:17Z) - Examining Cross-lingual Contextual Embeddings with Orthogonal Structural
Probes [0.2538209532048867]
オルソゴン構造プローブ(Limisiewicz and Marevcek, 2021)では、特定の言語的特徴についてこの疑問に答えることができる。
InmBERTの文脈表現を符号化した構文(UD)と語彙(WordNet)構造情報を9つの多言語で評価した。
ゼロショットと少数ショットのクロスランガル構文解析にこの結果を適用した。
論文 参考訳(メタデータ) (2021-09-10T15:03:11Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Improving Multilingual Models with Language-Clustered Vocabularies [8.587129426070979]
本稿では,複数の自動派生言語クラスタの別々に訓練された語彙を組み合わせた多言語語彙生成のための新しい手法を提案する。
我々の実験は、主要なマルチ言語ベンチマークタスクにおける言語間の改善を示す。
論文 参考訳(メタデータ) (2020-10-24T04:49:15Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。