論文の概要: SpeechT: Findings of the First Mentorship in Speech Translation
- arxiv url: http://arxiv.org/abs/2502.12050v3
- Date: Mon, 02 Jun 2025 12:11:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.088462
- Title: SpeechT: Findings of the First Mentorship in Speech Translation
- Title(参考訳): SpeechT:音声翻訳における最初のメンターシップの発見
- Authors: Yasmin Moslem, Juan Julián Cea Morán, Mariano Gonzalez-Gomez, Muhammad Hazim Al Farouq, Farah Abdou, Satarupa Deb,
- Abstract要約: 本研究は、音声翻訳における最初のメンターシップの詳細と発見について述べる(SpeechT)。
メンターシップの要件を満たすため、参加者はデータ準備、モデリング、高度な研究を含む重要な活動に従事した。
このプロジェクトは、アラビア語、ベンガル語、ガリシア語、インドネシア語、日本語、スペイン語など、英語以外の様々な言語をカバーしていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents the details and findings of the first mentorship in speech translation (SpeechT), which took place in December 2024 and January 2025. To fulfil the mentorship requirements, the participants engaged in key activities, including data preparation, modelling, and advanced research. The participants explored data augmentation techniques and compared end-to-end and cascaded speech translation systems. The projects covered various languages other than English, including Arabic, Bengali, Galician, Indonesian, Japanese, and Spanish.
- Abstract(参考訳): 本研究は,2024年12月から2025年1月にかけて行われた音声翻訳における最初のメンターシップ(SpeechT)の詳細と成果を述べる。
メンターシップの要件を満たすため、参加者はデータ準備、モデリング、高度な研究を含む重要な活動に従事した。
参加者は、データ拡張手法とエンドツーエンドとケースケード音声翻訳システムを比較した。
このプロジェクトは、アラビア語、ベンガル語、ガリシア語、インドネシア語、日本語、スペイン語など、英語以外の様々な言語をカバーしていた。
関連論文リスト
- Bemba Speech Translation: Exploring a Low-Resource African Language [0.0]
本稿では,国際音声言語翻訳会議(IWSLT 2025)へのシステム提出について述べる。
我々はWhisperとNLLB-200をベースとしたカスケード音声翻訳システムを構築し,バックトランスレーションなどのデータ拡張技術を採用した。
論文 参考訳(メタデータ) (2025-05-05T09:51:56Z) - GenAI Content Detection Task 1: English and Multilingual Machine-Generated Text Detection: AI vs. Human [71.42669028683741]
我々は,Coling 2025におけるGenAIワークショップの一環として,バイナリマシン生成テキスト検出における共有タスクを提案する。
このタスクは、モノリンガル(英: Monolingual)とマルチリンガル(英: Multilingual)の2つのサブタスクから構成される。
本稿では,データの包括的概要,結果の概要,参加システムの詳細な説明,提出内容の詳細な分析について述べる。
論文 参考訳(メタデータ) (2025-01-19T11:11:55Z) - Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model [66.17354128553244]
多くのLVLM(Large Vision-Language Models)は、主に英語のデータに基づいて訓練されている。
異なる言語群に対する学習がいかに異なるかを検討する。
私たちはCenturio(100言語LVLM)をトレーニングし、14のタスクと56の言語を対象とした評価で最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-01-09T10:26:14Z) - A Breadth-First Catalog of Text Processing, Speech Processing and Multimodal Research in South Asian Languages [1.3597551064547502]
本稿では,2022年1月~2024年10月にかけての南アジア諸言語におけるテキストベースの言語処理に関する最近の文献を概観する。
我々は、サライキ語、アサメセ語、バロチ語、ボド語、ビルマ語、チャトティスガルヒ語、ディヴェヒ語、グジャラーティ語、カンナダ語、カシュミリ語、コンカニ語、カシ語、マラヤラム語、マイティ語、ネパール語、オディア語、パシュト語、ラジャサニ語、シンドヒ語、テルーグ語など、21の低リソース南アジアの言語に焦点を当てている。
論文 参考訳(メタデータ) (2024-12-20T20:08:48Z) - Report on the 1st Workshop on Large Language Model for Evaluation in Information Retrieval (LLM4Eval 2024) at SIGIR 2024 [37.103230004631996]
本研究の目的は,情報検索における評価のためのLLMの話題を中心に,情報検索研究者を集結させることである。
このトピックの新規性を考えると、ワークショップは多面的な議論に焦点を当てていた。
論文 参考訳(メタデータ) (2024-08-09T23:55:58Z) - Evaluating the Translation Performance of Large Language Models Based on Euas-20 [8.913245134585283]
我々は,翻訳タスクにおける大規模言語モデルの性能,異なる言語における翻訳能力,および研究者や開発者のLLMの翻訳能力に対する事前学習データの影響を評価する。
論文 参考訳(メタデータ) (2024-08-06T11:49:11Z) - Perception Test 2023: A Summary of the First Challenge And Outcome [67.0525378209708]
最初のパーセプションテストは、IEEE/CVF International Conference on Computer Vision (ICCV) 2023と共に半日間のワークショップとして開催された。
目標は、最近提案されたPerception Testベンチマークで最先端のビデオモデルをベンチマークすることであった。
このレポートでは、タスク記述、メトリクス、ベースライン、結果について要約しています。
論文 参考訳(メタデータ) (2023-12-20T15:12:27Z) - Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation
over More Languages and Beyond [89.54151859266202]
2023年のMultilingual Speech Universal Performance Benchmark (ML-SUPERB) Challengeは、宣言されたSUPERBフレームワークに拡張される。
この挑戦は12のモデル提出と54の言語コーパスを集め、154の言語を含む包括的なベンチマークをもたらした。
この結果は、単にスケーリングモデルが多言語音声タスクにおける決定的な解決策ではないことを示唆している。
論文 参考訳(メタデータ) (2023-10-09T08:30:01Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Overview of CTC 2021: Chinese Text Correction for Native Speakers [46.98707360111395]
ネイティブ話者のための中国語テキスト修正タスクであるCTC 2021の概要を述べる。
本稿では,タスク定義とトレーニング用データ,評価について詳述する。
このタスクのために収集および注釈付けされたデータセットが、この研究領域における将来の発展を促進および促進することを願っている。
論文 参考訳(メタデータ) (2022-08-11T07:58:48Z) - Proceedings End-to-End Compositional Models of Vector-Based Semantics [0.0]
ワークショップは「オランダ語をローカライゼーションしたベクトルベースセマンティックモデリングのための合成計算」研究プロジェクトによって後援された。
本編では、寄稿した論文と招待された講演の要約をまとめた。
論文 参考訳(メタデータ) (2022-08-10T12:50:12Z) - ZR-2021VG: Zero-Resource Speech Challenge, Visually-Grounded Language
Modelling track, 2021 edition [96.87241233266448]
このトラックは、Zero-Resource Speech Challenge、2021年版、第2ラウンドで導入された。
我々は、新しいトラックを動機付け、参加ルールを詳細に議論する。
また,このトラック用に開発された2つのベースラインシステムについても紹介する。
論文 参考訳(メタデータ) (2021-07-14T08:29:07Z) - Kosp2e: Korean Speech to English Translation Corpus [11.44330742875498]
韓国語音声をエンドツーエンドで英文に翻訳するコーパスであるkosp2eを紹介する。
我々は,オープンライセンス音声認識コーパス,翻訳コーパス,音声言語コーパスを採用して,データセットを一般公開する。
論文 参考訳(メタデータ) (2021-07-06T20:34:06Z) - WNUT-2020 Task 2: Identification of Informative COVID-19 English Tweets [21.41654078561586]
10Kツイートのコーパスを構築し、このタスクの開発と評価フェーズを整理する方法について述べる。
55チームの最終システム評価結果から得られた結果の概要を概説する。
論文 参考訳(メタデータ) (2020-10-16T08:28:05Z) - The Zero Resource Speech Challenge 2020: Discovering discrete subword
and word units [40.41406551797358]
Zero Resource Speech Challenge 2020は、ラベルなしで生の音声信号から音声表現を学ぶことを目的としている。
提案した20のモデルの結果を提示し、教師なし音声学習における主な研究結果の意義について考察する。
論文 参考訳(メタデータ) (2020-10-12T18:56:48Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。