論文の概要: Navigating Speech Recording Collections with AI-Generated Illustrations
- arxiv url: http://arxiv.org/abs/2507.04182v1
- Date: Sat, 05 Jul 2025 22:38:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.05496
- Title: Navigating Speech Recording Collections with AI-Generated Illustrations
- Title(参考訳): AI生成図による音声記録コレクションのナビゲーション
- Authors: Sirina Håland, Trond Karlsen Strøm, Petra Galuščáková,
- Abstract要約: 本稿では,言語およびマルチモーダル生成モデルにおける最近の進歩を生かした,音声アーカイブの新しいナビゲーション手法を提案する。
我々は、インタラクティブなマインドマップと画像生成ツールを用いて、データを構造化形式に整理するWebアプリケーションを用いて、我々のアプローチを実証する。
このシステムはTED-Lium3データセットを用いて実装されており、TED Talksの2000以上の音声書き起こしと音声ファイルで構成されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although the amount of available spoken content is steadily increasing, extracting information and knowledge from speech recordings remains challenging. Beyond enhancing traditional information retrieval methods such as speech search and keyword spotting, novel approaches for navigating and searching spoken content need to be explored and developed. In this paper, we propose a novel navigational method for speech archives that leverages recent advances in language and multimodal generative models. We demonstrate our approach with a Web application that organizes data into a structured format using interactive mind maps and image generation tools. The system is implemented using the TED-LIUM~3 dataset, which comprises over 2,000 speech transcripts and audio files of TED Talks. Initial user tests using a System Usability Scale (SUS) questionnaire indicate the application's potential to simplify the exploration of large speech collections.
- Abstract(参考訳): 利用可能な音声コンテンツの量は着実に増えているが、音声記録から情報や知識を抽出することは依然として困難である。
音声検索やキーワードスポッティングなどの従来の情報検索手法の強化に加えて,音声コンテンツのナビゲートと探索のための新しいアプローチを探求し,開発する必要がある。
本稿では,言語およびマルチモーダル生成モデルにおける最近の進歩を生かした,音声アーカイブの新しいナビゲーション手法を提案する。
我々は、インタラクティブなマインドマップと画像生成ツールを用いて、データを構造化形式に整理するWebアプリケーションを用いて、我々のアプローチを実証する。
このシステムはTED-Lium~3データセットを使用して実装されており、TED Talksの2000以上の音声書き起こしと音声ファイルで構成されている。
システムユーザビリティ尺度(SUS)を用いた初期ユーザテストは,大規模音声コレクションの探索を簡略化するアプリケーションの可能性を示している。
関連論文リスト
- A Cascaded Architecture for Extractive Summarization of Multimedia Content via Audio-to-Text Alignment [0.0]
本研究は,音声-テキストアライメントによるマルチメディアコンテンツの抽出要約のためのカスケードアーキテクチャを提案する。
Microsoft Azure Speechを使った音声からテキストへの変換と、Whisper、Pegasus、Facebook BART XSumといった高度な抽出要約モデルを統合する。
ROUGEとF1スコアを用いた評価は,従来の要約手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2025-03-06T13:59:14Z) - Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Multi-Modal Retrieval For Large Language Model Based Speech Recognition [15.494654232953678]
我々は,kNN-LMとクロスアテンション手法の2つのアプローチによるマルチモーダル検索を提案する。
音声に基づくマルチモーダル検索はテキストベースの検索よりも優れていることを示す。
我々は,Spoken-Squad質問応答データセットを用いて,最先端の認識結果を得る。
論文 参考訳(メタデータ) (2024-06-13T22:55:22Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Automated Audio Captioning: an Overview of Recent Progress and New
Challenges [56.98522404673527]
自動音声キャプションは、与えられた音声クリップの自然言語記述を生成することを目的とした、モーダル横断翻訳タスクである。
本稿では、既存の様々なアプローチから評価指標やデータセットまで、自動音声キャプションにおけるコントリビューションの総合的なレビューを行う。
論文 参考訳(メタデータ) (2022-05-12T08:36:35Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z) - Unsupervised Pattern Discovery from Thematic Speech Archives Based on
Multilingual Bottleneck Features [41.951988293049205]
教師なし音響モデリングと復号化を含む2段階の手法を提案し,続いて音響単位列のパターンマイニングを行う。
提案システムは,MIT OpenCourseWare の講義記録から話題関連語句を効果的に抽出することができる。
論文 参考訳(メタデータ) (2020-11-03T20:06:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。