論文の概要: Automatic Embedding of Stories Into Collections of Independent Media
- arxiv url: http://arxiv.org/abs/2111.02216v1
- Date: Wed, 3 Nov 2021 13:36:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 16:40:52.387885
- Title: Automatic Embedding of Stories Into Collections of Independent Media
- Title(参考訳): 独立したメディアのコレクションへのストーリーの自動埋め込み
- Authors: Dylan R. Ashley and Vincent Herrmann and Zachary Friggstad and Kory W.
Mathewson and J\"urgen Schmidhuber
- Abstract要約: 我々は、独立したメディアのコレクションに自動的にストーリーを埋め込むために、機械学習技術をどのように利用できるかを検討する。
我々は、曲のテンポを抽出するモデルを用いて、音楽プレイリストを物語の弧に追従させる。
- 参考スコア(独自算出の注目度): 5.188557858279645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We look at how machine learning techniques that derive properties of items in
a collection of independent media can be used to automatically embed stories
into such collections. To do so, we use models that extract the tempo of songs
to make a music playlist follow a narrative arc. Our work specifies an
open-source tool that uses pre-trained neural network models to extract the
global tempo of a set of raw audio files and applies these measures to create a
narrative-following playlist. This tool is available at
https://github.com/dylanashley/playlist-story-builder/releases/tag/v1.0.0
- Abstract(参考訳): 我々は、独立したメディアコレクション内のアイテムの特性を導出する機械学習技術を用いて、ストーリーを自動的にそのようなコレクションに埋め込む方法について検討する。
そのために、曲のテンポを抽出するモデルを用いて、音楽プレイリストを物語の弧に追従させる。
我々の研究は、トレーニング済みニューラルネットワークモデルを使用して生オーディオファイルのグローバルなテンポを抽出し、これらの尺度を適用して、物語をフォローするプレイリストを作成するオープンソースツールである。
このツールはhttps://github.com/dylanashley/playlist-story-builder/releases/tag/v1.0.0で入手できる。
関連論文リスト
- SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。
音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。
コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文 参考訳(メタデータ) (2025-02-18T18:52:21Z) - JamendoMaxCaps: A Large Scale Music-caption Dataset with Imputed Metadata [6.230204066837519]
JamendoMaxCapsは、有名なJamendoプラットフォームから20万以上のフリーライセンスの楽器トラックを特徴とする、大規模な音楽キャプチャデータセットである。
データセットには、最先端のキャプションモデルによって生成されたキャプションが含まれており、暗黙のメタデータで強化されている。
論文 参考訳(メタデータ) (2025-02-11T11:12:19Z) - Language-based Audio Moment Retrieval [14.227865973426843]
音声モーメント検索(AMR)と呼ばれる新しいタスクを提案し設計する。
従来の言語ベースの音声検索タスクとは異なり、AMRはテキストクエリに基づいて、未編集の長い音声の関連モーメントを予測することを目的としている。
我々は、モーメントアノテーションを付加した大規模なシミュレーションオーディオ録音からなる専用のデータセット、Clatho-Momentを構築した。
次に、AMRタスクの基本的なフレームワークとして、Audio Moment DETR (AM-DETR) と呼ばれるDETRベースのモデルを提案する。
論文 参考訳(メタデータ) (2024-09-24T02:24:48Z) - LARP: Language Audio Relational Pre-training for Cold-Start Playlist Continuation [49.89372182441713]
マルチモーダルコールドスタートプレイリスト継続モデルであるLARPを導入する。
我々のフレームワークはタスク固有の抽象化の段階を増大させており、イントラトラック(音声)コントラスト損失、トラックトラックコントラスト損失、トラックプレイリストコントラスト損失である。
論文 参考訳(メタデータ) (2024-06-20T14:02:15Z) - Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling [62.25533750469467]
そこで本稿では,正確な音声タイムスタンプと話者識別機能を備えた,対話の完全な書き起こしを生成する音声-視覚的手法を提案する。
本手法は,Seinfeld,Fraiser,Scrubsなど,様々なテレビシットコムに対して評価を行った。
このシステムは,最新のストリーミングサービスで利用可能なビデオのアクセシビリティを向上させるために,字幕の自動生成に有用であると考えられる。
論文 参考訳(メタデータ) (2024-01-22T15:26:01Z) - WikiMuTe: A web-sourced dataset of semantic descriptions for music audio [7.4327407361824935]
音楽の豊かな意味記述を含む新しいオープンデータセットWikiMuTeを提案する。
このデータはウィキペディアの豊富な楽曲に関する記事のカタログから得られたものである。
我々は、テキストと音声の表現を共同で学習し、モーダル検索を行うモデルを訓練する。
論文 参考訳(メタデータ) (2023-12-14T18:38:02Z) - MusicAgent: An AI Agent for Music Understanding and Generation with
Large Language Models [54.55063772090821]
MusicAgentは、多数の音楽関連ツールと、ユーザの要求に対処するための自律ワークフローを統合している。
このシステムの第一の目的は、AI音楽ツールの複雑さからユーザーを解放し、クリエイティブな側面に集中できるようにすることである。
論文 参考訳(メタデータ) (2023-10-18T13:31:10Z) - Follow Anything: Open-set detection, tracking, and following in
real-time [89.83421771766682]
我々は,物体をリアルタイムで検出,追跡,追跡するロボットシステムを提案する。
私たちのアプローチは、何でも従う"(FAn)と呼ばれ、オープンな語彙とマルチモーダルモデルです。
FAnは軽量(6~8GB)グラフィックカードでラップトップにデプロイでき、毎秒6~20フレームのスループットを実現する。
論文 参考訳(メタデータ) (2023-08-10T17:57:06Z) - Melon Playlist Dataset: a public dataset for audio-based playlist
generation and music tagging [8.658926288789164]
我々は649,091トラックと148,826の関連するプレイリストに対して,30,652の異なるタグで注釈付けされたメル-スペクトログラムの公開データセットを提示する。
データはすべて、人気の高い韓国のストリーミングサービスMelonから集められている。
このデータセットは、音楽情報検索タスク、特に自動タグ付けと自動プレイリスト継続に適している。
論文 参考訳(メタデータ) (2021-01-30T10:13:10Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。