論文の概要: Automatic Embedding of Stories Into Collections of Independent Media
- arxiv url: http://arxiv.org/abs/2111.02216v1
- Date: Wed, 3 Nov 2021 13:36:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 16:40:52.387885
- Title: Automatic Embedding of Stories Into Collections of Independent Media
- Title(参考訳): 独立したメディアのコレクションへのストーリーの自動埋め込み
- Authors: Dylan R. Ashley and Vincent Herrmann and Zachary Friggstad and Kory W.
Mathewson and J\"urgen Schmidhuber
- Abstract要約: 我々は、独立したメディアのコレクションに自動的にストーリーを埋め込むために、機械学習技術をどのように利用できるかを検討する。
我々は、曲のテンポを抽出するモデルを用いて、音楽プレイリストを物語の弧に追従させる。
- 参考スコア(独自算出の注目度): 5.188557858279645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We look at how machine learning techniques that derive properties of items in
a collection of independent media can be used to automatically embed stories
into such collections. To do so, we use models that extract the tempo of songs
to make a music playlist follow a narrative arc. Our work specifies an
open-source tool that uses pre-trained neural network models to extract the
global tempo of a set of raw audio files and applies these measures to create a
narrative-following playlist. This tool is available at
https://github.com/dylanashley/playlist-story-builder/releases/tag/v1.0.0
- Abstract(参考訳): 我々は、独立したメディアコレクション内のアイテムの特性を導出する機械学習技術を用いて、ストーリーを自動的にそのようなコレクションに埋め込む方法について検討する。
そのために、曲のテンポを抽出するモデルを用いて、音楽プレイリストを物語の弧に追従させる。
我々の研究は、トレーニング済みニューラルネットワークモデルを使用して生オーディオファイルのグローバルなテンポを抽出し、これらの尺度を適用して、物語をフォローするプレイリストを作成するオープンソースツールである。
このツールはhttps://github.com/dylanashley/playlist-story-builder/releases/tag/v1.0.0で入手できる。
関連論文リスト
- Language-based Audio Moment Retrieval [14.227865973426843]
音声モーメント検索(AMR)と呼ばれる新しいタスクを提案し設計する。
従来の言語ベースの音声検索タスクとは異なり、AMRはテキストクエリに基づいて、未編集の長い音声の関連モーメントを予測することを目的としている。
我々は、モーメントアノテーションを付加した大規模なシミュレーションオーディオ録音からなる専用のデータセット、Clatho-Momentを構築した。
次に、AMRタスクの基本的なフレームワークとして、Audio Moment DETR (AM-DETR) と呼ばれるDETRベースのモデルを提案する。
論文 参考訳(メタデータ) (2024-09-24T02:24:48Z) - Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling [62.25533750469467]
そこで本稿では,正確な音声タイムスタンプと話者識別機能を備えた,対話の完全な書き起こしを生成する音声-視覚的手法を提案する。
本手法は,Seinfeld,Fraiser,Scrubsなど,様々なテレビシットコムに対して評価を行った。
このシステムは,最新のストリーミングサービスで利用可能なビデオのアクセシビリティを向上させるために,字幕の自動生成に有用であると考えられる。
論文 参考訳(メタデータ) (2024-01-22T15:26:01Z) - WikiMuTe: A web-sourced dataset of semantic descriptions for music audio [7.4327407361824935]
音楽の豊かな意味記述を含む新しいオープンデータセットWikiMuTeを提案する。
このデータはウィキペディアの豊富な楽曲に関する記事のカタログから得られたものである。
我々は、テキストと音声の表現を共同で学習し、モーダル検索を行うモデルを訓練する。
論文 参考訳(メタデータ) (2023-12-14T18:38:02Z) - MusicAgent: An AI Agent for Music Understanding and Generation with
Large Language Models [54.55063772090821]
MusicAgentは、多数の音楽関連ツールと、ユーザの要求に対処するための自律ワークフローを統合している。
このシステムの第一の目的は、AI音楽ツールの複雑さからユーザーを解放し、クリエイティブな側面に集中できるようにすることである。
論文 参考訳(メタデータ) (2023-10-18T13:31:10Z) - Follow Anything: Open-set detection, tracking, and following in
real-time [89.83421771766682]
我々は,物体をリアルタイムで検出,追跡,追跡するロボットシステムを提案する。
私たちのアプローチは、何でも従う"(FAn)と呼ばれ、オープンな語彙とマルチモーダルモデルです。
FAnは軽量(6~8GB)グラフィックカードでラップトップにデプロイでき、毎秒6~20フレームのスループットを実現する。
論文 参考訳(メタデータ) (2023-08-10T17:57:06Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。
生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。
トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文 参考訳(メタデータ) (2023-02-08T07:27:27Z) - Spectrograms Are Sequences of Patches [5.253100011321437]
我々は、音楽のスペクトログラムを一連のパッチとしてキャプチャする自己教師型モデルを設計する。
事前学習にはラベル付きデータを使用しず、16k曲のクリップを含むMTATデータセットのサブセットのみを使用します。
本モデルは,他の音響表現モデルと比較して,かなり許容できる結果が得られる。
論文 参考訳(メタデータ) (2022-10-28T08:39:36Z) - Malakai: Music That Adapts to the Shape of Emotions [0.0]
Malakaiは、ユーザがこのようなダイナミックな曲を作り、聴き、リミックスし、共有するのを助けるツールだ。
Malakaiを使えば、リスナーが対話できるダイナミックな曲を作成できる。
論文 参考訳(メタデータ) (2021-12-03T18:34:54Z) - Melon Playlist Dataset: a public dataset for audio-based playlist
generation and music tagging [8.658926288789164]
我々は649,091トラックと148,826の関連するプレイリストに対して,30,652の異なるタグで注釈付けされたメル-スペクトログラムの公開データセットを提示する。
データはすべて、人気の高い韓国のストリーミングサービスMelonから集められている。
このデータセットは、音楽情報検索タスク、特に自動タグ付けと自動プレイリスト継続に適している。
論文 参考訳(メタデータ) (2021-01-30T10:13:10Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。