論文の概要: Do Slides Help? Multi-modal Context for Automatic Transcription of Conference Talks
- arxiv url: http://arxiv.org/abs/2510.13979v1
- Date: Wed, 15 Oct 2025 18:04:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.566277
- Title: Do Slides Help? Multi-modal Context for Automatic Transcription of Conference Talks
- Title(参考訳): スライドは役に立たないか? 会議の自動記述のためのマルチモーダルコンテキスト
- Authors: Supriti Sinhamahapatra, Jan Niehues,
- Abstract要約: 本研究は、科学的なプレゼンテーションのユースケースのためのプレゼンテーションスライドの統合に焦点を当てている。
我々は、ドメイン固有項の自動解析を含むマルチモーダルプレゼンテーションのためのベンチマークを作成する。
拡張データセットを用いてモデルをトレーニングし、ベースラインモデルと比較して単語誤り率を約34%、ドメイン固有の用語で約35%削減する。
- 参考スコア(独自算出の注目度): 15.549564249284858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art (SOTA) Automatic Speech Recognition (ASR) systems primarily rely on acoustic information while disregarding additional multi-modal context. However, visual information are essential in disambiguation and adaptation. While most work focus on speaker images to handle noise conditions, this work also focuses on integrating presentation slides for the use cases of scientific presentation. In a first step, we create a benchmark for multi-modal presentation including an automatic analysis of transcribing domain-specific terminology. Next, we explore methods for augmenting speech models with multi-modal information. We mitigate the lack of datasets with accompanying slides by a suitable approach of data augmentation. Finally, we train a model using the augmented dataset, resulting in a relative reduction in word error rate of approximately 34%, across all words and 35%, for domain-specific terms compared to the baseline model.
- Abstract(参考訳): 最先端(SOTA)自動音声認識(ASR)システムは主に音響情報に依存し、追加のマルチモーダルコンテキストを無視している。
しかし、視覚情報は曖昧さと適応に不可欠である。
ほとんどの研究は、ノイズ条件を扱うために話者画像に焦点を当てているが、この研究は、科学的プレゼンテーションのユースケースのためのプレゼンテーションスライドの統合にも焦点をあてている。
最初のステップでは、ドメイン固有項の自動解析を含むマルチモーダルプレゼンテーションのためのベンチマークを作成します。
次に,マルチモーダル情報を用いた音声モデルの拡張手法を検討する。
データ拡張の適切なアプローチにより、スライドを伴うデータセットの欠如を軽減します。
最後に、拡張データセットを用いてモデルを訓練し、ベースラインモデルと比較して単語誤り率を約34%減らし、ドメイン固有の用語に対して35%減らした。
関連論文リスト
- Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.23246260804145]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - Data-Centric Improvements for Enhancing Multi-Modal Understanding in Spoken Conversation Modeling [13.628984890958314]
本稿では,対話型音声モデリングにおけるマルチモーダル理解の効率化を目的とした,データ中心のカスタマイズ手法を提案する。
提案手法は,オープンウェイトモデルを用いたトレーニングデータの10%のみを用いて,Spken-SQuADベンチマークの最先端性能を実現する。
また、あいまいなユーザ要求と動的評価入力を備えたマルチターン音声対話のための最初のデータセットであるASK-QAを導入する。
論文 参考訳(メタデータ) (2024-12-20T15:43:09Z) - Multi-modal Speech Transformer Decoders: When Do Multiple Modalities Improve Accuracy? [12.662031101992968]
合成および実世界の両方のデータセットにおける認識精度に対する多重モーダル性の影響について検討する。
音声認識のための補足的モダリティとしてのイメージは、中等度雑音レベルにおいて最大の利益をもたらす。
最も関連性の高い視覚情報が前処理ステップとしてフィルタリングされる場合、合成データセットと実世界のデータセットの両方のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-09-13T22:18:45Z) - Generating Data with Text-to-Speech and Large-Language Models for Conversational Speech Recognition [48.527630771422935]
複数話者対話型ASRのための合成データ生成パイプラインを提案する。
我々は、電話と遠隔会話音声設定のためのWhisper ASRモデルを微調整して評価を行う。
論文 参考訳(メタデータ) (2024-08-17T14:47:05Z) - Multi-Modal Retrieval For Large Language Model Based Speech Recognition [15.494654232953678]
我々は,kNN-LMとクロスアテンション手法の2つのアプローチによるマルチモーダル検索を提案する。
音声に基づくマルチモーダル検索はテキストベースの検索よりも優れていることを示す。
我々は,Spoken-Squad質問応答データセットを用いて,最先端の認識結果を得る。
論文 参考訳(メタデータ) (2024-06-13T22:55:22Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - MAAS: Multi-modal Assignation for Active Speaker Detection [59.08836580733918]
本稿では,本問題のマルチモーダル性に直接対処するアクティブな話者検出手法を提案する。
実験では,単一フレームで構築した小さなグラフデータ構造により,瞬時に発生する視聴覚課題を近似できることを示した。
論文 参考訳(メタデータ) (2021-01-11T02:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。