論文の概要: EPIC-EuroParl-UdS: Information-Theoretic Perspectives on Translation and Interpreting
- arxiv url: http://arxiv.org/abs/2603.09785v1
- Date: Tue, 10 Mar 2026 15:20:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.420314
- Title: EPIC-EuroParl-UdS: Information-Theoretic Perspectives on Translation and Interpreting
- Title(参考訳): EPIC-EuroParl-UdS:情報理論による翻訳と解釈
- Authors: Maria Kunilovskaya, Christina Pollkläsener,
- Abstract要約: 本稿では、英語とドイツ語のEPIC-UdS (spoken) と EuroParl-UdS (write) コーパスの更新および統合版を紹介する。
新バージョンはメタデータとテキストエラーを前回の使用で修正し、コンテンツを洗練し、言語アノテーションを更新し、新しいレイヤを追加する。
本稿は、今回のリリースで導入されたアップデートの概要を概説し、コーパスに基づいて以前の結果を要約し、新しいイラストレーション研究を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces an updated and combined version of the bidirectional English-German EPIC-UdS (spoken) and EuroParl-UdS (written) corpora containing original European Parliament speeches as well as their translations and interpretations. The new version corrects metadata and text errors identified through previous use, refines the content, updates linguistic annotations, and adds new layers, including word alignment and word-level surprisal indices. The combined resource is designed to support research using information-theoretic approaches to language variation, particularly studies comparing written and spoken modes, and examining disfluencies in speech, as well as traditional translationese studies, including parallel (source vs. target) and comparable (original vs. translated) analyses. The paper outlines the updates introduced in this release, summarises previous results based on the corpus, and presents a new illustrative study. The study validates the integrity of the rebuilt spoken data and evaluates probabilistic measures derived from base and fine-tuned GPT-2 and machine translation models on the task of filler particles prediction in interpreting.
- Abstract(参考訳): 本稿では,欧州議会のオリジナル演説と翻訳,解釈を含む双方向英語・ドイツ語EPIC-UdS (spoken) とEuroParl-UdS (write) コーパスについて紹介する。
新バージョンではメタデータとテキストのエラーを修正し、コンテンツを洗練し、言語アノテーションを更新し、単語アライメントや単語レベルの指数などの新しいレイヤを追加する。
この組み合わせされたリソースは、言語変化に対する情報理論的アプローチ、特に文字と音声のモードの比較、および音声の拡散(ソース対ターゲット)やそれに相当する(オリジナル対翻訳)分析を含む伝統的な翻訳学の研究を支援するように設計されている。
本稿は、今回のリリースで導入されたアップデートの概要を概説し、コーパスに基づいて以前の結果を要約し、新しいイラストレーション研究を示す。
本研究は, 再構成音声データの完全性を検証するとともに, 基礎および微調整GPT-2および機械翻訳モデルから導かれる確率的尺度を, 解釈時のフィラー粒子予測のタスクに基づいて評価する。
関連論文リスト
- LLM-based Translation Inference with Iterative Bilingual Understanding [52.46978502902928]
大規模言語モデル(LLM)の言語間機能に基づいた,新しい反復的バイリンガル理解翻訳法を提案する。
LLMの言語横断的能力により、ソース言語とターゲット言語を別々にコンテキスト理解することが可能になる。
提案したIBUTは、いくつかの強力な比較法より優れている。
論文 参考訳(メタデータ) (2024-10-16T13:21:46Z) - How Language Models Prioritize Contextual Grammatical Cues? [3.9790222241649587]
複数のジェンダーキュー語が存在する場合、言語モデルがジェンダー合意をどのように扱うかを検討する。
この結果から,エンコーダベースのモデルとデコーダベースのモデルでは,予測にコンテキスト情報を優先し,使用する方法に顕著な違いが認められた。
論文 参考訳(メタデータ) (2024-10-04T14:09:05Z) - Lost in Translation? Translation Errors and Challenges for Fair Assessment of Text-to-Image Models on Multilingual Concepts [107.32683485639654]
テキスト・トゥ・イメージ(T2I)モデルの多言語能力のベンチマークは、テスト言語で生成された画像と概念集合上の期待画像分布を比較した。
このようなベンチマークの一つである"Conceptual Coverage Across Languages" (CoCo-CroLa)は、7つの言語に翻訳された概念リストから画像を生成するように促すことで、T2Iモデルの具体的な名詞の在庫を評価する。
このベンチマークは、スペイン語、日本語、中国語の様々な重大度の翻訳誤りを含むことがわかった。
論文 参考訳(メタデータ) (2024-03-17T05:05:11Z) - X-PARADE: Cross-Lingual Textual Entailment and Information Divergence across Paragraphs [55.80189506270598]
X-PARADEは、段落レベルの情報の分岐の最初の言語間データセットである。
アノテーションは、対象言語における段落をスパンレベルでラベル付けし、ソース言語における対応する段落に対して評価する。
アライメントされた段落は、異なる言語のウィキペディアページから引用される。
論文 参考訳(メタデータ) (2023-09-16T04:34:55Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Time-Aware Ancient Chinese Text Translation and Inference [6.787414471399024]
我々は、古代漢文の翻訳をめぐる課題に対処することを目指している。
時代の違いによる言語的なギャップは、質の悪い翻訳をもたらす。
ほとんどの翻訳は、しばしばテキストを理解するのに非常に重要な文脈情報を欠いている。
論文 参考訳(メタデータ) (2021-07-07T12:23:52Z) - Multilingual Neural RST Discourse Parsing [24.986030179701405]
本稿では,多言語ベクトル表現とセグメントレベルの翻訳によるニューラル言語間対話を確立するための2つの手法について検討する。
実験結果から,両手法は訓練データに制限があっても有効であり,言語横断的,文書レベルの談話解析における最先端性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2020-12-03T05:03:38Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。