論文の概要: SwissADT: An Audio Description Translation System for Swiss Languages
- arxiv url: http://arxiv.org/abs/2411.14967v1
- Date: Fri, 22 Nov 2024 14:23:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:04:43.398389
- Title: SwissADT: An Audio Description Translation System for Swiss Languages
- Title(参考訳): SwissADT:スイス語のための音声記述翻訳システム
- Authors: Lukas Fischer, Yingqiang Gao, Alexa Lintner, Sarah Ebling,
- Abstract要約: スイス語3言語と英語の最初の音声記述翻訳システムであるSwissADTについて紹介する。
スイスの多様な言語人口に対する情報アクセシビリティ向上を目的として,ADスクリプトをスイス語に自動翻訳する。
- 参考スコア(独自算出の注目度): 3.6481982339272925
- License:
- Abstract: Audio description (AD) is a crucial accessibility service provided to blind persons and persons with visual impairment, designed to convey visual information in acoustic form. Despite recent advancements in multilingual machine translation research, the lack of well-crafted and time-synchronized AD data impedes the development of audio description translation (ADT) systems that address the needs of multilingual countries such as Switzerland. Furthermore, since the majority of ADT systems rely solely on text, uncertainty exists as to whether incorporating visual information from the corresponding video clips can enhance the quality of ADT outputs. In this work, we present SwissADT, the first ADT system implemented for three main Swiss languages and English. By collecting well-crafted AD data augmented with video clips in German, French, Italian, and English, and leveraging the power of Large Language Models (LLMs), we aim to enhance information accessibility for diverse language populations in Switzerland by automatically translating AD scripts to the desired Swiss language. Our extensive experimental ADT results, composed of both automatic and human evaluations of ADT quality, demonstrate the promising capability of SwissADT for the ADT task. We believe that combining human expertise with the generation power of LLMs can further enhance the performance of ADT systems, ultimately benefiting a larger multilingual target population.
- Abstract(参考訳): 音声記述 (AD) は視覚障害者や視覚障害者にとって重要なアクセシビリティサービスであり、視覚情報を音響形式で伝達するように設計されている。
近年の多言語機械翻訳研究の進歩にもかかわらず、高度で時間同期のADデータが欠如していることは、スイスなどの多言語諸国のニーズに対処する音声記述翻訳(ADT)システムの開発を妨げている。
さらに、ADTシステムの大部分はテキストのみに依存しているため、対応するビデオクリップから視覚情報を取り入れることで、ADT出力の品質を高めることができるかどうかについては不確実性がある。
本稿では,スイス語と英語の3つの主要言語に実装された最初のADTシステムであるSwissADTを紹介する。
ドイツ語,フランス語,イタリア語,英語のビデオクリップを付加した優れたADデータを収集し,Large Language Models(LLMs)のパワーを活用することにより,スイスの多様な言語人口に対する情報アクセシビリティを高めることを目的として,ADスクリプトをスイス語に自動翻訳する。
ADTタスクに対するSwissADTの有望な能力を示すために,ADT品質の自動評価と人為評価の両方からなる実験的なADT結果を得た。
我々は、人間の専門知識とLLMの生成能力を組み合わせることで、ADTシステムの性能をさらに向上させ、最終的にはより広い多言語対象人口に利益をもたらすと信じている。
関連論文リスト
- Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model [14.39119862985503]
利用可能なデータセットを用いた多言語ALTシステムの構築を目指している。
英語のALTに有効であることが証明されたアーキテクチャにヒントを得て,これらの手法を多言語シナリオに適用する。
単言語モデルと比較して,多言語モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-06-25T15:02:32Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - A Systematic Study of Performance Disparities in Multilingual
Task-Oriented Dialogue Systems [68.76102493999134]
マルチリンガルなタスク指向対話システム間に存在するタスクパフォーマンスの相違を,実証的に分析し,分析する。
我々は現在のToDシステムにおける適応と本質的バイアスの存在を証明した。
本稿では,新しい言語に対するToDデータ収集とシステム開発へのアプローチについて,実践的なヒントを提供する。
論文 参考訳(メタデータ) (2023-10-19T16:41:44Z) - A Survey of Multilingual Models for Automatic Speech Recognition [6.657361001202456]
言語間移動は多言語自動音声認識の課題に対する魅力的な解法である。
自己監督学習の最近の進歩は、多言語ASRモデルで使用されるラベルなし音声データへの道を開いた。
多様な言語や技術の研究から多言語モデルを構築するためのベストプラクティスを提示する。
論文 参考訳(メタデータ) (2022-02-25T09:31:40Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Crossing the Conversational Chasm: A Primer on Multilingual
Task-Oriented Dialogue Systems [51.328224222640614]
大規模な学習済みニューラルネットワークモデルに基づく最新のTODモデルは、データ空腹です。
ToDのユースケースのデータ取得は高価で面倒だ。
論文 参考訳(メタデータ) (2021-04-17T15:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。