Fugu-MT 論文翻訳(概要): Automatic Embedding of Stories Into Collections of Independent Media

論文の概要: Automatic Embedding of Stories Into Collections of Independent Media

arxiv url: http://arxiv.org/abs/2111.02216v1
Date: Wed, 3 Nov 2021 13:36:47 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-04 16:40:52.387885
Title: Automatic Embedding of Stories Into Collections of Independent Media
Title（参考訳）: 独立したメディアのコレクションへのストーリーの自動埋め込み
Authors: Dylan R. Ashley and Vincent Herrmann and Zachary Friggstad and Kory W. Mathewson and J\"urgen Schmidhuber
Abstract要約: 我々は、独立したメディアのコレクションに自動的にストーリーを埋め込むために、機械学習技術をどのように利用できるかを検討する。我々は、曲のテンポを抽出するモデルを用いて、音楽プレイリストを物語の弧に追従させる。
参考スコア（独自算出の注目度）: 5.188557858279645
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We look at how machine learning techniques that derive properties of items in a collection of independent media can be used to automatically embed stories into such collections. To do so, we use models that extract the tempo of songs to make a music playlist follow a narrative arc. Our work specifies an open-source tool that uses pre-trained neural network models to extract the global tempo of a set of raw audio files and applies these measures to create a narrative-following playlist. This tool is available at https://github.com/dylanashley/playlist-story-builder/releases/tag/v1.0.0
Abstract（参考訳）: 我々は、独立したメディアコレクション内のアイテムの特性を導出する機械学習技術を用いて、ストーリーを自動的にそのようなコレクションに埋め込む方法について検討する。そのために、曲のテンポを抽出するモデルを用いて、音楽プレイリストを物語の弧に追従させる。我々の研究は、トレーニング済みニューラルネットワークモデルを使用して生オーディオファイルのグローバルなテンポを抽出し、これらの尺度を適用して、物語をフォローするプレイリストを作成するオープンソースツールである。このツールはhttps://github.com/dylanashley/playlist-story-builder/releases/tag/v1.0.0で入手できる。

関連論文リスト

Music Boomerang: Reusing Diffusion Models for Data Augmentation and Audio Manipulation [49.062766449989525]
音楽オーディオの生成モデルは、典型的にはテキストプロンプトやメロディのみに基づいて出力を生成するために使用される。画像領域に対して最近提案されたブーメランサンプリングでは,任意の事前学習拡散モデルを用いて,既存の例に近い出力を生成することができる。
論文参考訳（メタデータ） (2025-07-07T10:46:07Z)
AI-Generated Song Detection via Lyrics Transcripts [15.1799390517192]
AIベースの音楽生成ツールの近年の能力向上は、音楽産業の隆盛を生み出している。本稿では、一般的な自動音声認識(ASR)モデルを用いて曲を翻訳することで、このギャップを解決することを提案する。我々の手法は、音声が様々な方法で摂動されるとき、最先端のオーディオベースよりも頑丈である。
論文参考訳（メタデータ） (2025-06-23T10:42:50Z)
ReelWave: Multi-Agentic Movie Sound Generation through Multimodal LLM Conversation [72.22243595269389]
本稿では,自律型サウンドディレクタによって教師される音声生成のためのマルチエージェントフレームワークを提案する。 Foley ArtistはComposerとVoice Actorのエージェントと共同で働き、共同でオフスクリーンサウンドを自動生成して全体の生産を補完する。本フレームワークは,映画から抽出した映像クリップに調和した,リッチで関連性の高い音声コンテンツを生成できる。
論文参考訳（メタデータ） (2025-03-10T11:57:55Z)
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文参考訳（メタデータ） (2025-02-18T18:52:21Z)
JamendoMaxCaps: A Large Scale Music-caption Dataset with Imputed Metadata [6.230204066837519]
JamendoMaxCapsは、有名なJamendoプラットフォームから20万以上のフリーライセンスの楽器トラックを特徴とする、大規模な音楽キャプチャデータセットである。データセットには、最先端のキャプションモデルによって生成されたキャプションが含まれており、暗黙のメタデータで強化されている。
論文参考訳（メタデータ） (2025-02-11T11:12:19Z)
Language-based Audio Moment Retrieval [14.227865973426843]
音声モーメント検索(AMR)と呼ばれる新しいタスクを提案し設計する。従来の言語ベースの音声検索タスクとは異なり、AMRはテキストクエリに基づいて、未編集の長い音声の関連モーメントを予測することを目的としている。我々は、モーメントアノテーションを付加した大規模なシミュレーションオーディオ録音からなる専用のデータセット、Clatho-Momentを構築した。次に、AMRタスクの基本的なフレームワークとして、Audio Moment DETR (AM-DETR) と呼ばれるDETRベースのモデルを提案する。
論文参考訳（メタデータ） (2024-09-24T02:24:48Z)
LARP: Language Audio Relational Pre-training for Cold-Start Playlist Continuation [49.89372182441713]
マルチモーダルコールドスタートプレイリスト継続モデルであるLARPを導入する。我々のフレームワークはタスク固有の抽象化の段階を増大させており、イントラトラック(音声)コントラスト損失、トラックトラックコントラスト損失、トラックプレイリストコントラスト損失である。
論文参考訳（メタデータ） (2024-06-20T14:02:15Z)
Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling [62.25533750469467]
そこで本稿では,正確な音声タイムスタンプと話者識別機能を備えた,対話の完全な書き起こしを生成する音声-視覚的手法を提案する。本手法は,Seinfeld,Fraiser,Scrubsなど,様々なテレビシットコムに対して評価を行った。このシステムは,最新のストリーミングサービスで利用可能なビデオのアクセシビリティを向上させるために,字幕の自動生成に有用であると考えられる。
論文参考訳（メタデータ） (2024-01-22T15:26:01Z)
WikiMuTe: A web-sourced dataset of semantic descriptions for music audio [7.4327407361824935]
音楽の豊かな意味記述を含む新しいオープンデータセットWikiMuTeを提案する。このデータはウィキペディアの豊富な楽曲に関する記事のカタログから得られたものである。我々は、テキストと音声の表現を共同で学習し、モーダル検索を行うモデルを訓練する。
論文参考訳（メタデータ） (2023-12-14T18:38:02Z)
MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models [54.55063772090821]
MusicAgentは、多数の音楽関連ツールと、ユーザの要求に対処するための自律ワークフローを統合している。このシステムの第一の目的は、AI音楽ツールの複雑さからユーザーを解放し、クリエイティブな側面に集中できるようにすることである。
論文参考訳（メタデータ） (2023-10-18T13:31:10Z)
Follow Anything: Open-set detection, tracking, and following in real-time [89.83421771766682]
我々は,物体をリアルタイムで検出,追跡,追跡するロボットシステムを提案する。私たちのアプローチは、何でも従う"(FAn)と呼ばれ、オープンな語彙とマルチモーダルモデルです。 FAnは軽量(6～8GB)グラフィックカードでラップトップにデプロイでき、毎秒6～20フレームのスループットを実現する。
論文参考訳（メタデータ） (2023-08-10T17:57:06Z)
Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文参考訳（メタデータ） (2023-02-08T07:27:27Z)
Malakai: Music That Adapts to the Shape of Emotions [0.0]
Malakaiは、ユーザがこのようなダイナミックな曲を作り、聴き、リミックスし、共有するのを助けるツールだ。 Malakaiを使えば、リスナーが対話できるダイナミックな曲を作成できる。
論文参考訳（メタデータ） (2021-12-03T18:34:54Z)
Melon Playlist Dataset: a public dataset for audio-based playlist generation and music tagging [8.658926288789164]
我々は649,091トラックと148,826の関連するプレイリストに対して,30,652の異なるタグで注釈付けされたメル-スペクトログラムの公開データセットを提示する。データはすべて、人気の高い韓国のストリーミングサービスMelonから集められている。このデータセットは、音楽情報検索タスク、特に自動タグ付けと自動プレイリスト継続に適している。
論文参考訳（メタデータ） (2021-01-30T10:13:10Z)
Automatic Curation of Large-Scale Datasets for Audio-Visual Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文参考訳（メタデータ） (2021-01-26T14:27:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。