論文の概要: Corpus of Cross-lingual Dialogues with Minutes and Detection of Misunderstandings
- arxiv url: http://arxiv.org/abs/2512.20204v1
- Date: Tue, 23 Dec 2025 09:56:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.819771
- Title: Corpus of Cross-lingual Dialogues with Minutes and Detection of Misunderstandings
- Title(参考訳): 分節による言語間対話のコーパスと誤認識の検出
- Authors: Marko Čechovič, Natália Komorníková, Dominik Macháček, Ondřej Bojar,
- Abstract要約: 本稿では,自動音声翻訳による言語間対話のコーパスを提案する。
コーパスは、12の原語でASRと金の書き起こしを含む5時間の音声記録と、英語への自動翻訳と修正された翻訳で構成されている。
この課題とその複雑さを概観するために,言語横断会議における誤解の定量化を試みる。
- 参考スコア(独自算出の注目度): 0.45498315114762483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech processing and translation technology have the potential to facilitate meetings of individuals who do not share any common language. To evaluate automatic systems for such a task, a versatile and realistic evaluation corpus is needed. Therefore, we create and present a corpus of cross-lingual dialogues between individuals without a common language who were facilitated by automatic simultaneous speech translation. The corpus consists of 5 hours of speech recordings with ASR and gold transcripts in 12 original languages and automatic and corrected translations into English. For the purposes of research into cross-lingual summarization, our corpus also includes written summaries (minutes) of the meetings. Moreover, we propose automatic detection of misunderstandings. For an overview of this task and its complexity, we attempt to quantify misunderstandings in cross-lingual meetings. We annotate misunderstandings manually and also test the ability of current large language models to detect them automatically. The results show that the Gemini model is able to identify text spans with misunderstandings with recall of 77% and precision of 47%.
- Abstract(参考訳): 音声処理と翻訳技術は、共通言語を共有しない個人のミーティングを促進する可能性がある。
このようなタスクの自動システムを評価するためには、多目的で現実的な評価コーパスが必要である。
そこで我々は,自動同時音声翻訳によって促進された共通言語を持たない個人間の言語間対話コーパスを作成し,提示する。
コーパスは、12の原語でASRと金の書き起こしを含む5時間の音声記録と、英語への自動翻訳と修正された翻訳で構成されている。
言語間の要約を研究するために、私たちのコーパスには会議の要約(数分)が書かれています。
さらに,誤解の自動検出を提案する。
この課題とその複雑さを概観するために,言語横断会議における誤解の定量化を試みる。
誤解を手動で注釈付けし、また現在の大規模言語モデルでそれらを自動的に検出する機能をテストする。
その結果,Geminiモデルでは,77%,47%の精度で,誤解を伴うテキストスパンを識別できることがわかった。
関連論文リスト
- Characterizing Language Use in a Collaborative Situated Game [47.38055058236005]
人気のあるPortal 2仮想パズルゲームのコオプモードにおいて,11.5時間の音声対話コーパスを収集する。
我々はプレイヤー言語と行動を分析し、既存のほとんどのchitchatやタスク指向対話コーパスにはめったに現れない多くの言語現象を識別する。
論文 参考訳(メタデータ) (2025-12-03T02:29:53Z) - LASPA: Language Agnostic Speaker Disentanglement with Prefix-Tuned Cross-Attention [2.199918533021483]
アクセント、音声解剖学、言語音声構造などの声質特性の重複は、言語情報と話者情報の分離を複雑にする。
これらのコンポーネントの分離は、話者認識の精度を大幅に向上させる。
そこで本稿では,接頭辞付きクロスアテンションを通じて共同学習を統合する,新しい非絡み合い学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-02T10:59:31Z) - Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。
テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文 参考訳(メタデータ) (2025-05-26T07:21:20Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Multilingual Auxiliary Tasks Training: Bridging the Gap between
Languages for Zero-Shot Transfer of Hate Speech Detection Models [3.97478982737167]
副タスクの微調整によって得られる言語間知識プロキシにより、ヘイトスピーチ検出モデルがどのような恩恵を受けるかを示す。
本稿では,言語間のヘイトスピーチ検出モデルのゼロショット転送を改善するために,多言語補助タスクの訓練を提案する。
論文 参考訳(メタデータ) (2022-10-24T08:26:51Z) - Lost in Interpreting: Speech Translation from Source or Interpreter? [0.0]
チェコ語とドイツ語を同時に解釈しながら、欧州議会の演説を英語で10時間の録音と書き起こしを公開します。
話者ベースおよびインタプリタベース音声翻訳システムの品質とレイテンシを英語からチェコ語に比較検討した。
論文 参考訳(メタデータ) (2021-06-17T09:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。