論文の概要: Temporally Aligning Long Audio Interviews with Questions: A Case Study
in Multimodal Data Integration
- arxiv url: http://arxiv.org/abs/2310.06702v1
- Date: Tue, 10 Oct 2023 15:25:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 14:59:09.425726
- Title: Temporally Aligning Long Audio Interviews with Questions: A Case Study
in Multimodal Data Integration
- Title(参考訳): 長い音声インタビューと質問の時間的整合:マルチモーダルデータ統合を事例として
- Authors: Piyush Singh Pasi, Karthikeya Battepati, Preethi Jyothi, Ganesh
Ramakrishnan, Tanmay Mahapatra, Manoj Singh
- Abstract要約: この研究は、CARE Indiaという非政府組織と共同で、長期にわたるオーディオ健康調査を収集している。
これらの調査を案内するために使用されるアンケートから抽出された質問に対し、長い音声記録の中で質問がどこにあるかを特定することを目的としている。
提案するフレームワークであるINDENTは,単語の時間的順序に関する事前情報を用いて,音声の埋め込みを学習する。
- 参考スコア(独自算出の注目度): 36.432286468938884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The problem of audio-to-text alignment has seen significant amount of
research using complete supervision during training. However, this is typically
not in the context of long audio recordings wherein the text being queried does
not appear verbatim within the audio file. This work is a collaboration with a
non-governmental organization called CARE India that collects long audio health
surveys from young mothers residing in rural parts of Bihar, India. Given a
question drawn from a questionnaire that is used to guide these surveys, we aim
to locate where the question is asked within a long audio recording. This is of
great value to African and Asian organizations that would otherwise have to
painstakingly go through long and noisy audio recordings to locate questions
(and answers) of interest. Our proposed framework, INDENT, uses a
cross-attention-based model and prior information on the temporal ordering of
sentences to learn speech embeddings that capture the semantics of the
underlying spoken text. These learnt embeddings are used to retrieve the
corresponding audio segment based on text queries at inference time. We
empirically demonstrate the significant effectiveness (improvement in R-avg of
about 3%) of our model over those obtained using text-based heuristics. We also
show how noisy ASR, generated using state-of-the-art ASR models for Indian
languages, yields better results when used in place of speech. INDENT, trained
only on Hindi data is able to cater to all languages supported by the
(semantically) shared text space. We illustrate this empirically on 11 Indic
languages.
- Abstract(参考訳): 音声とテキストのアライメントの問題は、トレーニング中に完全な監督を用いてかなりの量の研究が行われた。
しかし、これは通常、長いオーディオ記録の文脈でではなく、クエリされるテキストはオーディオファイル内で冗長に表示されない。
この研究は、インドのビハールの農村部に住む若い母親から長いオーディオヘルス調査を収集する、care indiaという非政府組織と協力している。
これらの調査を案内するために使用されるアンケートから抽出された質問に対し、長い音声記録の中で質問される場所を特定することを目的としている。
これはアフリカやアジアの組織にとって大きな価値であり、興味のある質問(と回答)を見つけるために、長く騒がしいオーディオ録音を辛抱強く通らなければならない。
提案するフレームワークであるINDENTは,文の時間的順序付けに関する事前情報を用いて,下層の音声テキストのセマンティクスをキャプチャする音声埋め込みを学習する。
これらの学習埋め込みは、推論時にテキストクエリに基づいて対応する音声セグメントを取得するために使用される。
テキストベースヒューリスティックスを用いて得られたモデルに対する有効性(約3%のR-avgの改善)を実証的に示す。
また、インドの言語に対する最先端のASRモデルを用いて生成される雑音性ASRは、音声の代わりに使用する場合、より良い結果が得られることを示す。
indent, training on hindi dataは、(理論上)共有テキスト空間でサポートされているすべての言語に対応できる。
11のindic言語で経験的に説明します。
関連論文リスト
- Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models [0.9285295512807729]
大規模音声言語モデルの出現により,音声質問応答が注目されている。
LALMは一般的な音声理解では優れているが、時間的推論では限られている。
本稿では,音声時間的推論におけるこれらの課題と限界について述べる。
論文 参考訳(メタデータ) (2024-09-10T05:26:53Z) - Bridging Language Gaps in Audio-Text Retrieval [28.829775980536574]
本稿では,多言語テキストエンコーダ(SONAR)を用いた言語拡張 (LE) を提案し,テキストデータを言語固有の情報で符号化する。
我々は,一貫したアンサンブル蒸留(CED)の適用により,オーディオエンコーダを最適化し,可変長音声テキスト検索のサポートを強化した。
提案手法は,AudioCaps や Clotho などの一般的なデータセット上でのSOTA (State-of-the-art) の性能を示す,英語の音声テキスト検索に優れている。
論文 参考訳(メタデータ) (2024-06-11T07:12:12Z) - Teach me with a Whisper: Enhancing Large Language Models for Analyzing
Spoken Transcripts using Speech Embeddings [8.660203441911554]
本稿では,音声データを利用した言語モデルの学習手法を提案する。
これにより、テスト時のオーディオ処理オーバーヘッドを回避しつつ、音声書き起こしを解析するための言語モデルが改善される。
本実験では, 従来の言語モデルに対して, 音声書き起こし解析のタスクにおいて一貫した改善が達成された。
論文 参考訳(メタデータ) (2023-11-13T01:53:12Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。
LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。
本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文 参考訳(メタデータ) (2022-03-28T23:47:57Z) - Audio-text Retrieval in Context [24.38055340045366]
そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。
提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
論文 参考訳(メタデータ) (2022-03-25T13:41:17Z) - ADIMA: Abuse Detection In Multilingual Audio [28.64185949388967]
音声テキストにおける乱用コンテンツ検出は、音声認識(ASR)を実行し、自然言語処理の進歩を活用することで対処することができる。
ADIMAは,言語学的に多様であり,倫理的にも特徴的であり,注釈付きかつバランスの取れた多言語多義性検出音声データセットである。
論文 参考訳(メタデータ) (2022-02-16T11:09:50Z) - APES: Audiovisual Person Search in Untrimmed Video [87.4124877066541]
音声人物探索データセット(APES)について述べる。
APESには36時間のビデオにラベル付けされた1,9K以上のIDが含まれている。
APESの重要な特徴は、顔と同一アイデンティティの音声セグメントをリンクする密集した時間アノテーションを含むことである。
論文 参考訳(メタデータ) (2021-06-03T08:16:42Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。