論文の概要: Navigating Speech Recording Collections with AI-Generated Illustrations
- arxiv url: http://arxiv.org/abs/2507.04182v1
- Date: Sat, 05 Jul 2025 22:38:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.05496
- Title: Navigating Speech Recording Collections with AI-Generated Illustrations
- Title(参考訳): AI生成図による音声記録コレクションのナビゲーション
- Authors: Sirina Håland, Trond Karlsen Strøm, Petra Galuščáková,
- Abstract要約: 本稿では,言語およびマルチモーダル生成モデルにおける最近の進歩を生かした,音声アーカイブの新しいナビゲーション手法を提案する。
我々は、インタラクティブなマインドマップと画像生成ツールを用いて、データを構造化形式に整理するWebアプリケーションを用いて、我々のアプローチを実証する。
このシステムはTED-Lium3データセットを用いて実装されており、TED Talksの2000以上の音声書き起こしと音声ファイルで構成されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although the amount of available spoken content is steadily increasing, extracting information and knowledge from speech recordings remains challenging. Beyond enhancing traditional information retrieval methods such as speech search and keyword spotting, novel approaches for navigating and searching spoken content need to be explored and developed. In this paper, we propose a novel navigational method for speech archives that leverages recent advances in language and multimodal generative models. We demonstrate our approach with a Web application that organizes data into a structured format using interactive mind maps and image generation tools. The system is implemented using the TED-LIUM~3 dataset, which comprises over 2,000 speech transcripts and audio files of TED Talks. Initial user tests using a System Usability Scale (SUS) questionnaire indicate the application's potential to simplify the exploration of large speech collections.
- Abstract(参考訳): 利用可能な音声コンテンツの量は着実に増えているが、音声記録から情報や知識を抽出することは依然として困難である。
音声検索やキーワードスポッティングなどの従来の情報検索手法の強化に加えて,音声コンテンツのナビゲートと探索のための新しいアプローチを探求し,開発する必要がある。
本稿では,言語およびマルチモーダル生成モデルにおける最近の進歩を生かした,音声アーカイブの新しいナビゲーション手法を提案する。
我々は、インタラクティブなマインドマップと画像生成ツールを用いて、データを構造化形式に整理するWebアプリケーションを用いて、我々のアプローチを実証する。
このシステムはTED-Lium~3データセットを使用して実装されており、TED Talksの2000以上の音声書き起こしと音声ファイルで構成されている。
システムユーザビリティ尺度(SUS)を用いた初期ユーザテストは,大規模音声コレクションの探索を簡略化するアプリケーションの可能性を示している。
関連論文リスト
- Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Multi-Modal Retrieval For Large Language Model Based Speech Recognition [15.494654232953678]
我々は,kNN-LMとクロスアテンション手法の2つのアプローチによるマルチモーダル検索を提案する。
音声に基づくマルチモーダル検索はテキストベースの検索よりも優れていることを示す。
我々は,Spoken-Squad質問応答データセットを用いて,最先端の認識結果を得る。
論文 参考訳(メタデータ) (2024-06-13T22:55:22Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Automated Audio Captioning: an Overview of Recent Progress and New
Challenges [56.98522404673527]
自動音声キャプションは、与えられた音声クリップの自然言語記述を生成することを目的とした、モーダル横断翻訳タスクである。
本稿では、既存の様々なアプローチから評価指標やデータセットまで、自動音声キャプションにおけるコントリビューションの総合的なレビューを行う。
論文 参考訳(メタデータ) (2022-05-12T08:36:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。