Fugu-MT 論文翻訳(概要): Contextualizing ASR Lattice Rescoring with Hybrid Pointer Network Language Model

論文の概要: Contextualizing ASR Lattice Rescoring with Hybrid Pointer Network Language Model

arxiv url: http://arxiv.org/abs/2005.07394v1
Date: Fri, 15 May 2020 07:47:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-02 23:27:59.411742
Title: Contextualizing ASR Lattice Rescoring with Hybrid Pointer Network Language Model
Title（参考訳）: ハイブリッドポインタネットワーク言語モデルを用いたASR格子の文脈化
Authors: Da-Rong Liu, Chunxi Liu, Frank Zhang, Gabriel Synnaeve, Yatharth Saraf, Geoffrey Zweig
Abstract要約: 自動音声認識システムを構築する際には,ビデオメタデータが提供する文脈情報を利用することができる。まず、ビデオメタデータの文脈ベクトル表現を抽出するために注意に基づく手法を用い、これらの表現をニューラルネットワークモデルへの入力の一部として利用する。次に,メタデータ中の単語の発生確率を明示的に補間する,ハイブリッドポインターネットワーク手法を提案する。
参考スコア（独自算出の注目度）: 26.78064626111014
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Videos uploaded on social media are often accompanied with textual descriptions. In building automatic speech recognition (ASR) systems for videos, we can exploit the contextual information provided by such video metadata. In this paper, we explore ASR lattice rescoring by selectively attending to the video descriptions. We first use an attention based method to extract contextual vector representations of video metadata, and use these representations as part of the inputs to a neural language model during lattice rescoring. Secondly, we propose a hybrid pointer network approach to explicitly interpolate the word probabilities of the word occurrences in metadata. We perform experimental evaluations on both language modeling and ASR tasks, and demonstrate that both proposed methods provide performance improvements by selectively leveraging the video metadata.
Abstract（参考訳）: ソーシャルメディアにアップロードされたビデオは、しばしばテキストによる記述を伴う。ビデオの自動音声認識(asr)システムを構築する際に,映像メタデータによって提供される文脈情報を利用することができる。本稿では,ビデオ記述への選択的参加によるASR格子再構成について検討する。まず,注意に基づく手法を用いて映像メタデータの文脈ベクトル表現を抽出し,これらの表現を格子解析中のニューラルネットワークモデルへの入力の一部として用いる。次に,メタデータ中の単語の発生確率を明示的に補間する,ハイブリッドポインターネットワーク手法を提案する。我々は,言語モデリングとasrタスクの両方について実験的評価を行い,提案手法がビデオメタデータを選択的に活用することにより,性能を向上させることを実証する。

関連論文リスト

Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset [4.452729255042396]
より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、現実世界の自然言語ビデオ検索タスクにおいて限られた能力をもたらす。本稿では,ビデオ言語データセットを自動的に拡張し,モダリティと文脈認識を向上する手法を提案する。
論文参考訳（メタデータ） (2024-06-19T20:16:17Z)
Improved Contextual Recognition In Automatic Speech Recognition Systems By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文参考訳（メタデータ） (2023-10-14T23:16:05Z)
DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文参考訳（メタデータ） (2023-10-08T08:02:43Z)
Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。 Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文参考訳（メタデータ） (2023-10-08T03:35:27Z)
Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文参考訳（メタデータ） (2023-02-28T19:29:05Z)
Towards Fast Adaptation of Pretrained Contrastive Models for Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文参考訳（メタデータ） (2022-06-05T01:43:52Z)
Controllable Video Captioning with an Exemplar Sentence [89.78812365216983]
本稿では,エンコーダ・デコーダ・リコンストラクタアーキテクチャに組み込んだ新しいSMCGを提案する。 SMCGはビデオセマンティック表現を入力とし、長期記憶ネットワークのゲートとセルを条件的に変調する。 2つの公開ビデオキャプションデータセットに対して、補助的な例文を収集して実験を行う。
論文参考訳（メタデータ） (2021-12-02T09:24:45Z)
Open-book Video Captioning with Retrieve-Copy-Generate Network [42.374461018847114]
本稿では,従来のビデオキャプションタスクを新たなパラダイム,すなわちOpen-book Video Captioningに変換する。本稿では,プラグイン可能なビデオ・テキスト検索システムを構築し,学習コーパスからのヒントとして文を効率的に検索するRetrieve-Copy-Generateネットワークを提案する。本フレームワークは,従来の検索手法とオルソドックスエンコーダデコーダ法を協調して,検索した文中の多様な表現を描画するだけでなく,ビデオの自然な,正確な内容を生成する。
論文参考訳（メタデータ） (2021-03-09T08:17:17Z)
Neuro-Symbolic Representations for Video Captioning: A Case for Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文参考訳（メタデータ） (2020-11-18T20:21:19Z)
Contextual RNN-T For Open Domain ASR [41.83409885125617]
自動音声認識(ASR)のためのエンドツーエンド(E2E)システムは、従来のハイブリッドASRシステムの個々のコンポーネントを1つのニューラルネットワークに混ぜる。これは優れた利点があり、ペアオーディオとテキストのみを使用してシステムをトレーニングすることを制限する。このため、E2Eモデルは、エンティティ名などのトレーニング中に頻繁に見られることのない稀な単語を正しく認識することが困難になる傾向にある。本稿では,RNN-Tモデルに改良を加えて,これらの名前付きエンティティワードの性能向上を目的としたメタデータテキストの追加を可能にする。
論文参考訳（メタデータ） (2020-06-04T04:37:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。