論文の概要: MockConf: A Student Interpretation Dataset: Analysis, Word- and Span-level Alignment and Baselines
- arxiv url: http://arxiv.org/abs/2506.04848v1
- Date: Thu, 05 Jun 2025 10:16:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.653225
- Title: MockConf: A Student Interpretation Dataset: Analysis, Word- and Span-level Alignment and Baselines
- Title(参考訳): MockConf: 学生の解釈データセット:分析、単語とスパンレベルのアライメント、ベースライン
- Authors: Dávid Javorský, Ondřej Bojar, François Yvon,
- Abstract要約: 学生のカリキュラムの一部として実施されているモック会議から収集したデータセットであるモックコンファレンスを紹介する。
このデータセットには、ヨーロッパ5カ国語で7時間の録音が含まれており、スパンと単語のレベルで書き起こされ調整されている。
我々はまた、同時解釈の整合に適した長文入力のパラレルワードとスパンアノテーションのためのモダンなWebベースのアノテーションツールInterAlignを実装し、リリースする。
- 参考スコア(独自算出の注目度): 11.037522635949939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In simultaneous interpreting, an interpreter renders a source speech into another language with a very short lag, much sooner than sentences are finished. In order to understand and later reproduce this dynamic and complex task automatically, we need dedicated datasets and tools for analysis, monitoring, and evaluation, such as parallel speech corpora, and tools for their automatic annotation. Existing parallel corpora of translated texts and associated alignment algorithms hardly fill this gap, as they fail to model long-range interactions between speech segments or specific types of divergences (e.g., shortening, simplification, functional generalization) between the original and interpreted speeches. In this work, we introduce MockConf, a student interpreting dataset that was collected from Mock Conferences run as part of the students' curriculum. This dataset contains 7 hours of recordings in 5 European languages, transcribed and aligned at the level of spans and words. We further implement and release InterAlign, a modern web-based annotation tool for parallel word and span annotations on long inputs, suitable for aligning simultaneous interpreting. We propose metrics for the evaluation and a baseline for automatic alignment. Dataset and tools are released to the community.
- Abstract(参考訳): 同時解釈では、インタプリタは、文章が終わるよりもずっと早く、ソーススピーチを非常に短いラグで他の言語にレンダリングする。
この動的で複雑なタスクを自動で理解し、後から再現するには、並列音声コーパスなどの分析、監視、評価のための専用のデータセットとツール、自動アノテーションのためのツールが必要です。
翻訳されたテキストと関連するアライメントアルゴリズムの並列コーパスは、音声セグメント間の長距離相互作用や、原文と解釈された音声間の特定の発散(例えば、短縮、単純化、機能一般化)をモデル化できないため、このギャップを埋めることができない。
本研究は,学生のカリキュラムの一部として実施されているMock Conferencesから収集したデータセットを解釈するMockConfを紹介する。
このデータセットには、ヨーロッパ5カ国語で7時間の録音が含まれており、スパンと単語のレベルで書き起こされ調整されている。
我々はまた、同時解釈の整合に適した長文入力のパラレルワードとスパンアノテーションのためのモダンなWebベースのアノテーションツールInterAlignを実装し、リリースする。
評価のためのメトリクスと,自動アライメントのためのベースラインを提案する。
データセットとツールはコミュニティにリリースされている。
関連論文リスト
- Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - Identifying Context-Dependent Translations for Evaluation Set Production [11.543673351369183]
文脈対応機械翻訳への移行に対する大きな障害は、優れた評価指標とテストセットがないことである。
我々は,5つの現象を翻訳するために文脈を必要とする文を含む並列文書のサブセットを識別するツールであるCTXPROを開発した。
パイプラインへの入力は、文脈的な文ペアを選択する手作り、言語ごと、言語的にインフォームドされたルールのセットである。
論文 参考訳(メタデータ) (2023-11-04T04:29:08Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Analysis of Joint Speech-Text Embeddings for Semantic Matching [3.6423306784901235]
ペア音声と書き起こし入力の距離を最小化することにより,セマンティックマッチングのために訓練された共同音声テキスト埋め込み空間について検討する。
我々は,事前学習とマルチタスクの両方のシナリオを通じて,音声認識を組み込む方法を拡張した。
論文 参考訳(メタデータ) (2022-04-04T04:50:32Z) - Providing Insights for Open-Response Surveys via End-to-End
Context-Aware Clustering [2.6094411360258185]
本研究では,オープンレスポンスサーベイデータ中の組込み意味パターンを抽出し,集約し,省略する,エンド・ツー・エンドのコンテキスト認識フレームワークを提案する。
我々のフレームワークは、テキストデータを意味ベクトルにエンコードするために、事前訓練された自然言語モデルに依存している。
本フレームワークは,調査データから最も洞察に富んだ情報を抽出するプロセスを自動化することで,大規模化のコストを削減する。
論文 参考訳(メタデータ) (2022-03-02T18:24:10Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - Scalable Cross-lingual Document Similarity through Language-specific
Concept Hierarchies [0.0]
本稿では,並列あるいは同等のコーパスを必要としない教師なし文書類似性アルゴリズムを提案する。
このアルゴリズムは、文書から自動的に作成されたトピックを多言語ラベルでアノテートします。
JCR-Acquis corporaの英語、スペイン語、フランス語版で実施された実験は、同様のコンテンツによる文書の分類と分類に関する有望な結果を明らかにします。
論文 参考訳(メタデータ) (2020-12-15T10:42:40Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - SimulEval: An Evaluation Toolkit for Simultaneous Translation [59.02724214432792]
テキストと音声の同時翻訳は、リアルタイムと低レイテンシのシナリオに焦点を当てている。
SimulEvalは、テキストと音声の同時翻訳のための、使いやすくて汎用的な評価ツールキットである。
論文 参考訳(メタデータ) (2020-07-31T17:44:41Z) - Local-Global Video-Text Interactions for Temporal Grounding [77.5114709695216]
本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。
そこで本研究では,テキストクエリにおける意味句の中間レベルの特徴の集合を抽出する,新しい回帰モデルを用いてこの問題に対処する。
提案手法は,ローカルからグローバルへのコンテキスト情報を活用することにより,目標時間間隔を効果的に予測する。
論文 参考訳(メタデータ) (2020-04-16T08:10:41Z) - Coursera Corpus Mining and Multistage Fine-Tuning for Improving Lectures
Translation [37.04364877980479]
本稿では,Coursera の公開講義から並列コーパスをマイニングする方法を紹介する。
提案手法は,連続空間の文表現よりも機械翻訳とコサイン類似性に頼って,文のアライメントを決定する。
日本語-英語の講義翻訳では,約4万行の並列データを抽出し,開発・テストセットを作成した。
論文 参考訳(メタデータ) (2019-12-26T01:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。