論文の概要: BOOM: Beyond Only One Modality KIT's Multimodal Multilingual Lecture Companion
- arxiv url: http://arxiv.org/abs/2512.02817v1
- Date: Tue, 02 Dec 2025 14:27:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.924091
- Title: BOOM: Beyond Only One Modality KIT's Multimodal Multilingual Lecture Companion
- Title(参考訳): BOOM:KITのマルチモーダル・マルチランガル・レクチャー・コンパニオンはただひとつ
- Authors: Sai Koneru, Fabian Retkowski, Christian Huber, Lukas Hilgert, Seymanur Akti, Enes Yavuz Ugan, Alexander Waibel, Jan Niehues,
- Abstract要約: 講義音声とスライドを共同で翻訳し、3つのモードで同期出力を生成する多言語講義コンパニオンである textbfBOOM を提示する。
実験により,スライド対応文字起こしは,要約や質問応答といった下流タスクにカスケード効果をもたらすことが示された。
- 参考スコア(独自算出の注目度): 56.41649972542962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The globalization of education and rapid growth of online learning have made localizing educational content a critical challenge. Lecture materials are inherently multimodal, combining spoken audio with visual slides, which requires systems capable of processing multiple input modalities. To provide an accessible and complete learning experience, translations must preserve all modalities: text for reading, slides for visual understanding, and speech for auditory learning. We present \textbf{BOOM}, a multimodal multilingual lecture companion that jointly translates lecture audio and slides to produce synchronized outputs across three modalities: translated text, localized slides with preserved visual elements, and synthesized speech. This end-to-end approach enables students to access lectures in their native language while aiming to preserve the original content in its entirety. Our experiments demonstrate that slide-aware transcripts also yield cascading benefits for downstream tasks such as summarization and question answering. We release our Slide Translation code at https://github.com/saikoneru/image-translator and integrate it in Lecture Translator at https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{All released code and models are licensed under the MIT License.
- Abstract(参考訳): 教育のグローバル化とオンライン学習の急速な成長により、教育コンテンツをローカライズすることが重要な課題となっている。
講義材料は本質的にマルチモーダルであり、音声と視覚的スライドを組み合わせて、複数の入力モーダルを処理できるシステムを必要とする。
アクセシブルで完全な学習体験を実現するために、翻訳は、読み書きのためのテキスト、視覚的理解のためのスライド、聴覚学習のためのスピーチなど、あらゆるモダリティを保たなければならない。
講演音声とスライドを共同で翻訳し、翻訳テキスト、保存された視覚要素を持つ局所的なスライド、合成音声の3つのモードにわたる同期出力を生成するマルチモーダル多言語講義コンパニオンである「textbf{BOOM}」を提示する。
このエンド・ツー・エンドのアプローチにより、学生は原文全体を保存しつつ、母語での講義にアクセスできる。
実験により,スライド対応文字起こしは,要約や質問応答といった下流タスクにカスケード効果をもたらすことが示された。
私たちは、スライド翻訳コードをhttps://github.com/saikoneru/image-translatorでリリースし、それをhttps://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{AllリリースコードとモデルはMIT Licenseの下でライセンスされています。
関連論文リスト
- From TOWER to SPIRE: Adding the Speech Modality to a Translation-Specialist LLM [24.31773681590982]
音声入力を英語から10言語に翻訳・翻訳できる音声拡張言語モデル(LM)であるSpireを紹介する。
Spireは、音声の離散化を通じて既存の多言語LMに統合し、わずか42.5K時間で事前学習を継続する。
論文 参考訳(メタデータ) (2025-03-13T17:57:32Z) - Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。
我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。
0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文 参考訳(メタデータ) (2024-05-12T07:59:46Z) - TRAVID: An End-to-End Video Translation Framework [1.6131714685439382]
本稿では、音声言語を翻訳するだけでなく、翻訳された音声と話者の唇の動きを同期するエンドツーエンドのビデオ翻訳システムを提案する。
本システムは,インド諸言語における教育講義の翻訳に重点を置いており,低リソースのシステム設定においても有効であるように設計されている。
論文 参考訳(メタデータ) (2023-09-20T14:13:05Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。