論文の概要: A recurrent connectionist model of melody perception : An exploration
using TRACX2
- arxiv url: http://arxiv.org/abs/2311.12431v1
- Date: Tue, 21 Nov 2023 08:43:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 01:30:17.106226
- Title: A recurrent connectionist model of melody perception : An exploration
using TRACX2
- Title(参考訳): メロディ知覚の反復接続モデル : TRACX2を用いた探索
- Authors: Daniel Defays, Robert French (LEAD), Barbara Tillmann (LEAD)
- Abstract要約: チャンキングとシーケンシャルセグメンテーションの認識に基づくオートエンコーダであるTRA CX2を,小学校のメロディ知覚に適用する方法について検討する。
このモデルは、入力時に頻繁に遭遇する短い間隔の「チャンク」を認識する3層オートエンコーダであり、メロディ的に単純なフランスの子供たちの歌のトーン間隔に基づいて訓練されている。
TRA CX2は、入力で遭遇する音楽チャンクの輪郭情報と近接情報の両方に敏感である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Are similar, or even identical, mechanisms used in the computational modeling
of speech segmentation, serial image processing and music processing? We
address this question by exploring how TRACX2, (French et al., 2011; French \&
Cottrell, 2014; Mareschal \& French, 2017), a recognition-based, recursive
connectionist autoencoder model of chunking and sequence segmentation, which
has successfully simulated speech and serial-image processing, might be applied
to elementary melody perception. The model, a three-layer autoencoder that
recognizes ''chunks'' of short sequences of intervals that have been frequently
encountered on input, is trained on the tone intervals of melodically simple
French children's songs. It dynamically incorporates the internal
representations of these chunks into new input. Its internal representations
cluster in a manner that is consistent with ''human-recognizable'' melodic
categories. TRACX2 is sensitive to both contour and proximity information in
the musical chunks that it encounters in its input. It shows the
''end-of-word'' superiority effect demonstrated by Saffran et al. (1999) for
short musical phrases. The overall findings suggest that the recursive
autoassociative chunking mechanism, as implemented in TRACX2, may be a general
segmentation and chunking mechanism, underlying not only word-and
imagechunking, but also elementary melody processing.
- Abstract(参考訳): 音声セグメンテーション、シリアル画像処理、音楽処理の計算モデルにおいて、類似または同一のメカニズムが使われているか?
tracx2(フランス語: et al., 2011; french \& cottrell, 2014; mareschal \& french, 2017)は、チャンキングとシーケンスセグメンテーションの認識に基づく再帰的接続性オートエンコーダモデルで、音声とシリアルイメージの処理をシミュレートした。
入力時に頻繁に遭遇した区間の短い列の「チャンク」を認識する3層オートエンコーダであるこのモデルは、旋律的な単純なフランスの子供の歌のトーン間隔に基づいて訓練される。
これらのチャンクの内部表現を動的に新しい入力に組み込む。
内部表現は「人間認識可能な」メロディカテゴリーと一致する方法でクラスタ化される。
TRACX2は、入力で遭遇する音楽チャンクの輪郭情報と近接情報の両方に敏感である。
saffran et al. (1999) による短い音楽句の「語尾」の優越性効果を示している。
以上より, TRACX2 に実装された再帰的自己解離的チャンキング機構は, 単語と画像のチャンクだけでなく, 基本メロディ処理にも応用できる可能性が示唆された。
関連論文リスト
- LARP: Language Audio Relational Pre-training for Cold-Start Playlist Continuation [49.89372182441713]
マルチモーダルコールドスタートプレイリスト継続モデルであるLARPを導入する。
我々のフレームワークはタスク固有の抽象化の段階を増大させており、イントラトラック(音声)コントラスト損失、トラックトラックコントラスト損失、トラックプレイリストコントラスト損失である。
論文 参考訳(メタデータ) (2024-06-20T14:02:15Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - Mapping of attention mechanisms to a generalized Potts model [50.91742043564049]
ニューラルネットワークのトレーニングは、いわゆる擬似様相法によって逆ポッツ問題を解くのと全く同じであることを示す。
また、レプリカ法を用いてモデルシナリオにおける自己意図の一般化誤差を解析的に計算する。
論文 参考訳(メタデータ) (2023-04-14T16:32:56Z) - Re-creation of Creations: A New Paradigm for Lyric-to-Melody Generation [158.54649047794794]
Re-creation of Creations (ROC)は、歌詞からメロディ生成のための新しいパラダイムである。
ROCは、Lyric-to-Meody生成において、優れたLyric-Meody特徴アライメントを実現する。
論文 参考訳(メタデータ) (2022-08-11T08:44:47Z) - The Power of Reuse: A Multi-Scale Transformer Model for Structural
Dynamic Segmentation in Symbolic Music Generation [6.0949335132843965]
シンボリック・ミュージック・ジェネレーションは、生成モデルの文脈表現能力に依存している。
粗大デコーダと細小デコーダを用いて,グローバルおよびセクションレベルのコンテキストをモデル化するマルチスケールトランスフォーマを提案する。
本モデルは2つのオープンMIDIデータセットで評価され,実験により,同時代のシンボリック・ミュージック・ジェネレーション・モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-17T18:48:14Z) - Exploring single-song autoencoding schemes for audio-based music
structure analysis [6.037383467521294]
この研究は、低次元のオートエンコーダを訓練し、特定の歌に特有の潜在/圧縮表現を学習する「ピース固有」オートエンコード方式を探求する。
提案手法は,3秒耐性を有する教師付き最先端手法の性能レベルを実現する。
論文 参考訳(メタデータ) (2021-10-27T13:48:25Z) - Differential Music: Automated Music Generation Using LSTM Networks with
Representation Based on Melodic and Harmonic Intervals [0.0]
本稿では,LSTMネットワークを用いた自動作曲のための生成AIモデルを提案する。
絶対的なピッチではなく音楽の動きに基づく音楽情報の符号化に新しいアプローチをとる。
実験結果は、音楽やトーンを聴くと約束を示す。
論文 参考訳(メタデータ) (2021-08-23T23:51:08Z) - MusCaps: Generating Captions for Music Audio [14.335950077921435]
時間的注目のエンコーダデコーダで構成された最初の音楽オーディオキャプションモデルであるMusCapsを紹介します。
本手法は畳み込み型ニューラルネットワークアーキテクチャと繰り返し型ニューラルネットワークアーキテクチャを組み合わせて,音声テキスト入力を共同処理する。
我々のモデルは、分類に基づく音楽記述から脱却し、聴覚と言語の両方の理解を必要とするタスクを組み合わせている。
論文 参考訳(メタデータ) (2021-04-24T16:34:47Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z) - Modeling Musical Structure with Artificial Neural Networks [0.0]
音楽構造モデリングのさまざまな側面に対する人工知能の適用について検討する。
Gated Autoencoder(GAE)というコネクショナリストモデルを用いて,楽曲の断片間の変換を学習する方法を示す。
本稿では,ポリフォニック・ミュージックを区間の連続として表現するGAEの特別な予測訓練を提案する。
論文 参考訳(メタデータ) (2020-01-06T18:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。