論文の概要、ライセンス

# (参考訳) インド古典音楽における感情分類のためのニューラルネットワークアーキテクチャ [全文訳有]

Neural Network architectures to classify emotions in Indian Classical Music ( http://arxiv.org/abs/2102.00616v1 )

ライセンス: CC BY 4.0
Uddalok Sarkar, Sayan Nag, Medha Basu, Archi Banerjee, Shankha Sanyal, Ranjan Sengupta, Dipak Ghosh(参考訳) 音楽はしばしば感情の言語と見なされる。 長い間、人間の感情を引き出すことが知られており、人間の感情のタイプに基づいて音楽を分類することが、非常に興味深い研究のトピックである。 インド古典音楽(ICM)によって引き起こされる感情を分類する作業になると、ICMに固有の曖昧さのため、さらに困難になる。 1つの演奏が聴衆の様々な感情的反応を誘発するという事実は、ICMの反響の性質に暗黙的である。 ディープラーニングの分野での急速な進歩により、この音楽感情認識(MER)タスクはますます関連性が高く、堅牢になりつつあるため、最も困難なテストケースの1つ、すなわち1つに適用することができる。 ICMからの感情の分類。 本稿では,200クリップがハッピー感情に対応し,残りの200クリップが悲しい感情に対応する,400のオーディオクリップ(それぞれ30秒)を持つjumusemodbという新しいデータセットを提案する。 教師付き分類のために、2000年サブクリップ(各クリップを5つのサブクリップに分割する)の対応する音楽スペクトログラムに既存の4つのディープ畳み込みニューラルネットワーク(CNN)ベースのアーキテクチャ(resnet18, mobilenet v2.0, tightnet v1.0, vgg16)を使用し、周波数領域情報と時間領域情報の両方を含む。 最初の結果は非常に刺激的であり、このアーキテクチャを使ってデータセットのベースライン値を設定することを楽しみにしています。 インド古典音楽の豊富なコーパスを用いたCNNに基づく分類アルゴリズムは,グローバルな視点でもユニークであり,他の音楽のモダリティにおいても再現可能である。 このデータセットはまだ開発中であり、他の感情的特徴を含むデータも追加する予定です。 近いうちにデータセットを一般公開する予定です。

Music is often considered as the language of emotions. It has long been known to elicit emotions in human being and thus categorizing music based on the type of emotions they induce in human being is a very intriguing topic of research. When the task comes to classify emotions elicited by Indian Classical Music (ICM), it becomes much more challenging because of the inherent ambiguity associated with ICM. The fact that a single musical performance can evoke a variety of emotional response in the audience is implicit to the nature of ICM renditions. With the rapid advancements in the field of Deep Learning, this Music Emotion Recognition (MER) task is becoming more and more relevant and robust, hence can be applied to one of the most challenging test case i.e. classifying emotions elicited from ICM. In this paper we present a new dataset called JUMusEmoDB which presently has 400 audio clips (30 seconds each) where 200 clips correspond to happy emotions and the remaining 200 clips correspond to sad emotion. For supervised classification purposes, we have used 4 existing deep Convolutional Neural Network (CNN) based architectures (resnet18, mobilenet v2.0, squeezenet v1.0 and vgg16) on corresponding music spectrograms of the 2000 sub-clips (where every clip was segmented into 5 sub-clips of about 5 seconds each) which contain both time as well as frequency domain information. The initial results are quite inspiring, and we look forward to setting the baseline values for the dataset using this architecture. This type of CNN based classification algorithm using a rich corpus of Indian Classical Music is unique even in the global perspective and can be replicated in other modalities of music also. This dataset is still under development and we plan to include more data containing other emotional features as well. We plan to make the dataset publicly available soon.
公開日: Mon, 1 Feb 2021 03:41:25 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Neural Network architectures to classify emotions in 感情を分類するニューラルネットワークアーキテクチャ 0.68
Indian Classical Music Uddalok Sarkara*, Sayan Nagb, Medha Basua, Archi Banerjeea,c, インド古典音楽 Uddalok Sarkara*, Sayan Nagb, Medha Basua, Archi Banerjeea,c 0.75
Shankha Sanyala,d, Ranjan Senguptaa, Dipak Ghosha Shankha Sanyala,d, Ranjan Senguptaa, Dipak Ghosha。 0.92
aSir C.V. Raman Centre for Physics and Music, Jadavpur University, India ASir C.V. Raman Centre for Physics and Music, Jadavpur University, India 0.94
bDepartment of Medical Biophysics, University of Toronto, Canada bdepartment of medical biophysics, university of toronto, canada 0.78
cRekhi Centre of Excellence for the Science of Happiness, IIT Kharagpur, India cRekhi Center of Excellence for the Science of Happiness, IIT Kharagpur, India (英語) 0.93
dSchool of Languages and Linguistics, Jadavpur University, India インドのジャダヴプル大学における言語学と言語学のdSchool 0.68
*corresponding author, email: uddaloksarkar@gmail. com ※著者、メール:uddaloksarkar@gmail .com 0.78
[Received: 01-12-2020; Revised: 31-12-2020; Accepted: 31-12-2020] [受理:01-12-2020;改正:31-12-2020;受理:31-12-2020] 0.46
ABSTRACT Music is often considered as the language of emotions. ABSTRACT 音楽はしばしば感情の言語と見なされる。 0.81
It has long been known to elicit emotions in human being and thus categorizing music based on the type of emotions they induce in human being is a very intriguing topic of research. 長い間、人間の感情を引き出すことが知られており、人間の感情のタイプに基づいて音楽を分類することが、非常に興味深い研究のトピックである。 0.80
When the task comes to classify emotions elicited by Indian Classical Music (ICM), it becomes much more challenging because of the inherent ambiguity associated with ICM. インド古典音楽(ICM)によって引き起こされる感情を分類する作業になると、ICMに固有の曖昧さのため、さらに困難になる。 0.70
The fact that a single musical performance can evoke a variety of emotional response in the audience is implicit to the nature of ICM renditions. 1つの演奏が聴衆の様々な感情的反応を誘発するという事実は、ICMの反響の性質に暗黙的である。
訳抜け防止モード: 単一の音楽パフォーマンスが観客にさまざまな感情的な反応を呼び起こすことができるという事実 ICMのrenditionsの性質に暗黙的です。
0.80
With the rapid advancements in the field of Deep Learning, this Music Emotion Recognition (MER) task is becoming more and more relevant and robust, hence can be applied to one of the most challenging test case i.e. ディープラーニングの分野での急速な進歩により、この音楽感情認識(MER)タスクはますます関連性が高く、堅牢になりつつあるため、最も困難なテストケースの1つ、すなわち1つに適用することができる。 0.70
classifying emotions elicited from ICM. ICMからの感情の分類。 0.77
In this paper we present a new dataset called JUMusEmoDB which presently has 400 audio clips (30 seconds each) where 200 clips correspond to happy emotions and the remaining 200 clips correspond to sad emotion. 本稿では,200クリップがハッピー感情に対応し,残りの200クリップが悲しい感情に対応する,400のオーディオクリップ(それぞれ30秒)を持つjumusemodbという新しいデータセットを提案する。 0.71
The initial annotations and emotional classification of the database has been done based on an emotional rating test (5-point Likert scale) performed by 100 participants. データベースの最初のアノテーションと感情分類は、100人の参加者が行った感情評価テスト(5-point likert scale)に基づいて行われた。 0.80
The clips have been taken from different conventional 'raga' renditions played in sitar by an eminent maestro of ICM and digitized in 44.1 kHz frequency. クリップはICMの卓越したマエストロによってシタールで演奏され、44.1kHzの周波数でデジタル化されている。 0.69
The ragas, which are unique to ICM, are described as musical structures capable of inducing different moods or emotions. ICM特有のラガスは、異なる気分や感情を引き起こすことができる音楽構造として記述されています。 0.62
For supervised classification purposes, we have used 4 existing deep Convolutional Neural Network (CNN) based architectures (resnet18, mobilenet v2.0, squeezenet v1.0 and vgg16) on corresponding music spectrograms of the 2000 sub-clips (where every clip was segmented into 5 sub-clips of about 5 seconds each) which contain both time as well as frequency domain information. 教師付き分類のために、2000年サブクリップ(各クリップを5つのサブクリップに分割する)の対応する音楽スペクトログラムに既存の4つのディープ畳み込みニューラルネットワーク(CNN)ベースのアーキテクチャ(resnet18, mobilenet v2.0, tightnet v1.0, vgg16)を使用し、周波数領域情報と時間領域情報の両方を含む。 0.76
The initial results are quite inspiring, and we look forward to setting the baseline values for the dataset using this architecture. 最初の結果は非常に刺激的であり、このアーキテクチャを使ってデータセットのベースライン値を設定することを楽しみにしています。 0.61
This type of CNN based classification algorithm using a rich corpus of Indian Classical Music is unique even in the global perspective and can be replicated in other modalities of music also. インド古典音楽の豊富なコーパスを用いたCNNに基づく分類アルゴリズムは,グローバルな視点でもユニークであり,他の音楽のモダリティにおいても再現可能である。 0.81
This dataset is still under development and we plan to include more data containing other emotional features as well. このデータセットはまだ開発中であり、他の感情的特徴を含むデータも追加する予定です。 0.76
We plan to make the dataset publicly available soon. 近いうちにデータセットを一般公開する予定です。 0.70
Keywords: Indian Classical Music, Emotions, Classification, CNN キーワード: インドのクラシック音楽、感情、分類、CNN 0.81
英語(論文から抽出)日本語訳スコア
1. INTRODUCTION Music imposes emotion. 1. 導入 音楽は感情を与える。 0.68
Considering the very basic, major scale always creates a happier ambience whereas minor scale creates a bit sad. 非常にベーシックなメジャースケールを考えると、小さなスケールは少し悲しくなりますが、常に幸せな環境を作り出します。 0.62
This response to melody and rhythm is a biological instinct. メロディーとリズムに対するこの反応は生物学的本能です。 0.72
A non-musician’s ear can feel the pain when Garry Moore plays “Loner”, even a baby responds to different scales and melody lines. 非音楽家の耳は、ガリー・ムーアが「Loner」を弾くと痛みを感じることができます。赤ちゃんでさえ、さまざまなスケールとメロディーラインに反応します。
訳抜け防止モード: 非ミュージシャンの耳は痛みを感じることができます。 Garry Mooreは「Loner」を演じます。 赤ん坊でさえ異なったスケールおよびメロディー ラインに答えます。
0.75
While talking about emotions elicited by Indian Classical Music (ICM) it always becomes a matter of huge challenge for its ambiguous emotional response. インド古典音楽(ICM)が引き起こした感情について語る一方で、そのあいまいな感情的反応にとって、常に大きな課題となっている。 0.65
Studies involving non-linear techniques have been conducted in the recent past to understand this complex behavior of music and its manifestation in the human brain [13 - 17]. 近年,人間の脳における音楽の複雑な行動とその現象を理解するために,非線形手法に関する研究が行われている[13~17]。 0.81
In the recent years, Machine Learning has made significant advancements in a multitude of fields including computer vision, medical imaging, natural language processing and so on [18 - 37]. 近年,コンピュータビジョン,医用画像,自然言語処理などの分野において,機械学習は大きな進歩を遂げている [18~37]。 0.70
Such Machine Learning and Deep Learning approaches have been used to identify different emotions associated with music [9 -12]. このような機械学習とディープラーニングのアプローチは、音楽に関連するさまざまな感情を識別するために使用されます [9 - 12]。
訳抜け防止モード: このような機械学習やディープラーニングのアプローチは 音楽[9〜12]に関連する異なる感情を識別する。
0.77
So, Music Emotion Recognition (MER) has always been an interesting task to perform for observing the correlation between the music and perceived emotion. だから、音楽感情認識(MER)は、常に音楽と知覚感情の相関を監視するために実行する興味深いタスクでした。 0.78
Music Emotion Recognition task was first introduced by Barthet et al [5]. 音楽感情認識タスクはBarthetらによって最初に導入された[5]。 0.75
Since then, several developments have been achieved on this discipline, and hence it has become very important to observe the role of ICM in elicitation of emotion. それ以来、この分野にいくつかの発展が達成されており、感情の抽出におけるICMの役割を観察することが非常に重要です。 0.73
To exploit the significance of emotion induction in ICM, we need a proper database to work with. ICMにおける感情誘導の重要性を活用するためには、適切なデータベースが必要である。 0.73
Previously datasets like Computer Audition Lab 500-song (CAL500) [6], CAL500exp [7], datasets have been introduced, which is enriched with 500 western music clips. 以前はComputer Audition Lab 500-song (CAL500) [6], CAL500exp [7]などのデータセットが導入されており、西部の500曲のクリップが充実している。 0.74
Here in this paper we have introduced a database JUMusEmoDB enriched with 400 music clips from genre of Indian Classical Music, of which 200 clips fall into the category of happy emotion while 200 falls into sad. ここでは、JUMUSEmoDBデータベースを導入しましたインド古典音楽のジャンルから400の音楽クリップを豊富に含み、200のクリップは幸せな感情のカテゴリに落ち、200は悲しいに落ちます。 0.82
Each clip is of 30 seconds length which is long enough for introducing an emotional imposition [8]. 各クリップの長さは30秒で、感情的な印象を導入するのに十分です [8]。 0.72
All the clips are parts of different ‘raga’ renditions improvised in Sitar by an eminent maestro of ICM. すべてのクリップは、ICMの卓越したマエストロによってシタールで即興化された異なる「ラガ」の演出の一部です。 0.54
Each Raga in ICM evokes not a particular emotion (rasa), but a superposition of different emotional states such as joy, sadness, anger, disgust, fear etc. icmの各ragaは、特定の感情(rasa)ではなく、喜び、悲しみ、怒り、嫌悪、恐怖などの異なる感情状態の重ね合わせを喚起する。 0.70
To decipher which particular emotion is conveyed in the chosen 30 sec segment of the raga, an emotion annotation was performed initially by 100 participants based on 5-point Likert scale. 選抜された30秒セグメントにおいて、どの感情が伝達されるかを解読するために、まず5点様の尺度に基づいて100人の参加者によって感情アノテーションが実行された。 0.56
For an emotion classification task different acoustic features of music are very important. 音楽の異なる音響特性は、感情分類タスクのために非常に重要です。 0.78
Different acoustic feature consists of (a) Rhythmic Features: Tempo, Silence etc. 異なる音響的特徴は(a)リズム的特徴:テンポ、サイレンスなどからなる。 0.84
; (b) Timbral Features: MFCC, Average Energy, Spectral Centroid, Spectral Tilt etc. ; (b) Timbralの特徴: MFCC、平均エネルギー、スペクトル中心体、スペクトルのタイル等。 0.80
; (c) Chroma Features. ; (c) chroma の特徴。 0.80
These acoustic features quantify the musicality of a clip which in effect contributes to MER. これらの音響特性は、効果的にMERに貢献するクリップの音楽性を定量化します。 0.65
Study on this knowledge driven approaches results in an efficient model structure; but before this, a validated dataset is very necessary to work with. この知識駆動アプローチの研究は、効率的なモデル構造をもたらすが、それ以前は、検証されたデータセットが必要不可欠である。 0.80
After the emotion annotation, a data driven approach has been used to validate our dataset. 感情アノテーションの後、データセットを検証するためにデータ駆動アプローチが使われました。 0.65
image We have taken an image processing-oriented approach to classify the dataset into emotion tags. image データセットを感情タグに分類するための画像処理指向のアプローチを取りました。 0.76
We primarily extracted the spectrogram of a clip and fed the processed spectrogram into existing deep Convolutional Neural Network (CNN) based architectures. 主にクリップのスペクトログラムを抽出し,既存の深層畳み込みニューラルネットワーク(CNN)ベースのアーキテクチャに処理されたスペクトログラムを供給した。 0.76
These CNNs were then trained to classify emotions. これらのCNNは感情を分類するために訓練された。 0.52
For this study, we have made use of four different existing CNN architectures: VGG16, ResNet18, MobileNet v2.0, SqueezeNet v1.0 and have received some promising results. 本研究では,既存の4つのcnnアーキテクチャ(vgg16,resnet18,mobi lenet v2.0,speernet v1.0)を用いて,有望な結果を得た。 0.65
Furthermore, the dataset used in our study which we have named as JUMusEmoDB, is a novel dataset comprising of clips from Indian Classical Music genre. さらに,我々がjumusemodbと名づけた本研究で使用したデータセットは,インド古典音楽ジャンルのクリップからなる新しいデータセットである。 0.77
This dataset currently has musical clips from two emotions, namely happy and sad, and is still under development. このデータセットには、現在2つの感情、すなわち幸せと悲しみの音楽クリップがあり、まだ開発中である。 0.73
We plan to include more data containing other emotional features eventually making the dataset publicly available shortly. 今後は、他の感情的な機能を含むデータを追加して、データセットを近々公開する予定です。 0.55
This dataset can be used in future by the scientific community for emotion classification purposes, to investigate the impact of Indian Classical Music on human brain and finally to このデータセットは将来、科学的コミュニティによって感情分類の目的で使用でき、インド古典音楽が人間の脳と最後に与える影響を調査することができる。 0.79
英語(論文から抽出)日本語訳スコア
conduct cross-cultural studies combining both Western Classical and Indian Classical musical clips. 西洋古典音楽とインド古典音楽の両方を組み合わせた異文化研究を行う。 0.72
The paper has been organized as follows: Section 2 contains Data Acquisition, Section 3 comprises of the Methods used, the Experiments and Results of the study have been mentioned in Section 4 and finally Section 5 has the conclusion. 第2節はデータ取得を含み、第3節は使用される方法で構成され、研究の実験と結果が第4節に言及され、最終的に第5節は結論に達した。 0.61
2. DATA ACQUISITION: JUMusEmoDB consists of 400 audio clips of 30 second each. 2. データ取得: JUMusEmoDBは、それぞれ30秒の400オーディオクリップで構成されています。 0.69
The clips have been taken from different conventional raga renditions played in sitar by an eminent maestro of ICM and recorded with a sample frequency of 44.1 kHz. クリップは、ICMの著名な前衛によってシタールで再生され、44.1 kHzのサンプル周波数で記録された異なる従来のラガレンディションから取られている。 0.60
200 clips correspond to happy emotions and the remaining 200 clips correspond to sad emotion. 200クリップは幸せな感情に対応し、残りの200クリップは悲しい感情に対応します。 0.61
Initial annotations and emotional classification of the database has been done based on an emotional rating test (5-point Likert scale) performed by 100 participants. データベースの初期アノテーションと感情分類は、100人の参加者による感情評価テスト(5-point likert scale)に基づいて行われた。 0.84
3. METHODS: We have labeled our music database JUMusEmoDB into two main classes as stated earlier, i.e., happy, and sad. 3. 方法 私たちは、音楽データベースJUMusEmoDBを、前述の2つの主要なクラスにラベル付けしました。 0.62
In this paper we have followed the approach of a data driven method to classify the database into two distinct classes. 本稿では,データベースを2つの異なるクラスに分類するデータ駆動型手法のアプローチについて述べる。 0.80
Now a general question arises regarding why a data driven approach is being followed primarily rather than any novel knowledge-based quantification. では、なぜデータ駆動アプローチが新しい知識ベースの量子化ではなく、主に従うのか、という一般的な疑問が生じます。
訳抜け防止モード: さて 一般的な疑問が生まれます データ駆動アプローチは主に、新しい知識、すなわち定量化ではなく、従っている。
0.67
To answer this, we have to take into account that a successful classification with high accuracy rate will validate the authenticity of JUMusEmoDB, which can then be used to develop new knowledge-based models to test on this database. これに対処するには、精度の高い分類がJUMusEmoDBの真正性を検証し、このデータベース上でテストするための新しい知識ベースのモデルの開発に使用できることを考慮に入れなければなりません。 0.80
3.1. Data Preprocessing 3.1. データ前処理 0.76
The basic input to our CNN based framework should be an image data. CNNベースのフレームワークに対する基本的な入力は、イメージデータであるべきです。 0.72
Hence, to map our audio database into image paradigm we have made use of Spectrogram. したがって、オーディオデータベースをイメージパラダイムにマップするには、Spectrogramを利用しました。 0.70
But before obtaining spectrogram for these 30-second-long audio clips, we have sliced all the 30 second clips into individual 5 second clips to augment our dataset and performed STFT on this augmented dataset to obtain spectrograms. しかし、この30秒長の音声クリップのスペクトログラムを得る前に、30秒のクリップをそれぞれ5秒のクリップに切り分けてデータセットを増強し、このデータセット上でSTFTを行い、スペクトログラムを得た。 0.66
3.2. Spectrogram 3.2. スペクトログラム 0.69
In our proposed framework, we have performed our classification task on the mel-spectrograms of derived music tracks. 提案するフレームワークでは、派生した音楽トラックのメログラム上で分類タスクを実施しました。 0.63
To extract the melspectrogram we have made use of short time Fourier transform with a window size of 2048 and hop size of 512 to obtain a spectrogram (Fig. メルスペクトログラムを抽出するために、2048のウィンドウサイズと512のホップサイズを持つ短い時間フーリエ変換を使用してスペクトログラムを得ました(図2)。 0.79
1). Thus we obtained melspectrogram as a dot product of obtained spectrogram with mel filterbanks. 1). そこで,メルフィルタバンクを用いた分光器のドット生成物としてメルスペクトログラムを得た。 0.68
𝑠𝑝𝑒𝑐𝑡(𝑡, 𝑓) = |𝑠𝑡𝑓𝑡(𝑡, 𝑓)|2 𝑠𝑝𝑒𝑐𝑡(𝑡, 𝑓) = |𝑠𝑡𝑓𝑡(𝑡, 𝑓)|2 0.96
Fig.1: Spectrogram of a HAPPY Music Clipping 第1図:HAPPY音楽クライッピングのスペクトログラム 0.78
𝑚𝑒𝑙𝑠𝑝𝑒𝑐𝑡𝑟𝑜𝑔𝑟𝑎𝑚(𝑡, 𝑓′) = 𝑠𝑝𝑒𝑐𝑡(𝑡, 𝑓) . 𝑚𝑒𝑙𝑠𝑝𝑒𝑐𝑡𝑟𝑜𝑔𝑟𝑎𝑚(𝑡, 𝑓′) = 𝑠𝑝𝑒𝑐𝑡(𝑡, 𝑓) . 0.91
𝑚𝑒𝑙𝑓𝑖𝑙𝑡𝑒𝑟𝑏𝑎𝑛𝑘𝑠 𝑚𝑒𝑙𝑓𝑖𝑙𝑡𝑒𝑟𝑏𝑎𝑛𝑘𝑠 0.85
英語(論文から抽出)日本語訳スコア
3.3. CNN Models 3.3. CNNモデル 0.76
We have extended our framework into four different established ConvNet models, i.e., VGG[1], ResNet[2], SqueezeNet[3], MobileNet v2[4]. 私たちはフレームワークを,VGG[1],ResNet[2],SqueezeNet[3],MobileNet v2[4]の4つの確立されたConvNetモデルに拡張しました。 0.80
We thus have obtained four accuracy rates with an average of 99.117%. その結果、平均99.117%の精度で4つの精度が得られた。 0.58
We have added an extra layer of 2 channels at each end of considered model because of bi-class output of our framework. フレームワークの2クラス出力のため、検討されたモデルのそれぞれの端に2つのチャンネルを追加しました。 0.68
3.3.1 VGG Net is the oldest architecture among the used ConvNet models, proposed by Karen Simonyan and Andrew Zisserman of Oxford Robotics Institute in 2014 [1]. 3.3.1 VGG Netは2014年にオックスフォード・ロボティクス研究所のKaren SimonyanとAndrew Zissermanによって提案されたConvNetモデルの中で最古のアーキテクチャである。 0.77
This has sixteen weight layers; thirteen convolution layers divided into five groups, each group followed by pooling layers, and three fully connected (FC) layers at the end of whole network (Fig. この層は16の重み層を持ち、13の畳み込み層は5つのグループに分けられ、それぞれがプール層、そして3つの完全連結層(fc)がネットワーク全体の端にある(図)。 0.80
2). Convolution layers have a receptive field of 3x3 throughout the whole net, with stride 1. 2). 畳み込み層は網全体に3x3の受容場を持ち、ストライドは1である。 0.77
The Maxpooling layers consist of receptive fields of size 2x2 each and with a stride of 2. Maxpooling層は、それぞれ2×2の大きさの受容体と、ストライドが2である。 0.77
The network ends with three fully connected layers with first two layers of 4096 channels and last layer of 1000 channels due to 1000 classes of ILSVRC (ImageNet Large-Scale Visual Recognition Challenge). ネットワークは、ILSVRC(ImageNet Large-Scale Visual Recognition Challenge)の1000クラスにより、最初の2層4096チャンネルと最後の1000チャンネルの3つの完全に接続された層で終了します。 0.78
Fig.2: VGG-16 Network 図2:vgg-16ネットワーク 0.67
Architecture 3.3.2. ResNets are residual learning framework with substantially deeper network but with lower complexity. 建築 3.3.2. ResNetsは、ネットワークがかなり深いが、複雑さが低い残留学習フレームワークです。 0.64
Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun has proposed a residual network with a depth of up to 152 layers (Fig. Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sunは、最大152層までの残留ネットワークを提案した(図)。 0.73
3-4) i.e., 8x deeper than VGG-19 nets [2]. 3-4) VGG-19 ネットの8倍の深さ [2]。 0.75
Increasing depth of a network can lead to a very serious problem of vanishing gradient which results in saturation of convergence with a very high training error and low ネットワークの深さの増大は、非常に高いトレーニング誤差と低い収束の飽和をもたらす勾配の消失という非常に深刻な問題を引き起こす可能性がある。 0.75
Fig.3: Residual Block accuracy problems. 図3:残差ブロック 精度の問題だ 0.77
Kaiming He et al. He et al.』など。 0.50
has beautifully taken care of these facts and modified a very deep network to gain a high accuracy with low training error. これらの事実をきれいに処理し トレーニングエラーの少ない高い精度を得るために 非常に深いネットワークを変更しました 0.80
They have implemented a “short-cut connection” of identity mapping. 彼らはアイデンティティマッピングの「短い接続」を実装した。 0.66
Their approach was to allow the network to fit the stacked layers to a residual mapping using residual block (Fig. 彼らのアプローチは、ネットワークがスタック層を残差ブロック(fig)を使用して残差マッピングに適合させることであった。 0.68
3) instead of fitting them directly to the underlying mapping. 3) 根底にあるマッピングに直接適合させる代わりに。 0.81
So, instead of feeding 𝐻(𝑥) (desired underlying mapping) let the stacked network thus ultimately gives𝐻(𝑥) ∶= 𝐹(𝑥) + 𝑥. したがって、H(x) (所望の基底写像) を摂る代わりに、スタック化されたネットワークは最終的に H(x) > = F(x) + x を与える。 0.74
fit, 𝐹(𝑥) ∶= 𝐻(𝑥) – 𝑥 and F(x) ) = H(x) – x に適合する。 0.84
Fig.4: ResNet 152-layer 図4: ResNet 152-layer 0.72
Architecture 3.3.3. SqueezeNet lighter modification of deep convolutional neural networks which has achieved an accuracy near to AlexNet (on ImageNet dataset) with 50 times fewer parameters (Fig. 建築 3.3.3. 深層畳み込みニューラルネットワークのSqueezeNetは、パラメータ(図)の50倍の精度でAlexNet(ImageNetデータセット)に近い精度を達成した。
訳抜け防止モード: 建築 3.3.3. SqueezeNetによる深部畳み込みニューラルネットワークの軽量化 パラメータが50倍少ないAlexNet(ImageNetデータセット上の)に近い精度を達成した(図)。
0.70
6) [3]. The main concept behind 6) [3]. 背景にある概念 0.67
is a Fig.5: Fire Module aです 図5: Fire Module 0.85
英語(論文から抽出)日本語訳スコア
this architecture is introduction of ‘fire module”. このアーキテクチャは、"fire module"の導入である。 0.75
A fire module is a stacking of a squeeze layer with 1x1 convolution filters and an expand layer which has both 1x1 and 3x3 filters. 消防モジュールは、1x1畳み込みフィルタと1x1および3x3フィルタの両方を有する拡大層を備えた絞り層の積み重ねです。 0.79
Number of kernels in squeeze layer should be less than number of kernels in expand layer to limit the number of input channels to 3x3 kernels. スイーズ層のカーネルの数は、3x3カーネルへの入力チャネル数を制限するため、エクスパンディング層のカーネル数より少ないはずである。 0.70
Fig. 5 shows an architectural view of fire module. フィギュア。 5は火モジュールの建築図を示します。 0.63
3.3.4. MobileNet, by Google, has introduced a new kind of lightweight architecture by replacing traditional convolution layer with “Depth-wise Separable Convolution” to reduce the model size and complexity. 3.3.4. GoogleのMobileNetは、従来の畳み込みレイヤを“Depth-wise Separable Convolution”に置き換えて、モデルのサイズと複雑さを減らすことによって、新しいタイプの軽量アーキテクチャを導入した。 0.58
In MobileNetV2 two kinds of blocks are observed [4], stride 1 block (residual block), stride2 block (downsizing). mobilenetv2では[4]、stride 1 block (residual block)、stride2 block (downsizing)の2種類のブロックが観察される。 0.82
Each block consists of three layers as shown in Fig. 各ブロックは図に示すように3つの層から構成される。 0.72
7. First layer contains 1x1 kernel with RELU6. 7. 第1層は1x1カーネルとRELU6を含む。 0.71
Second layer performs the depth-wise convolution. 第2層は深度ワイドの畳み込みを行う。 0.59
Third layer again contains 1x1 kernel without any nonlinear function. 第3層は再び非線形関数を持たない1x1カーネルを含む。 0.67
Fig.6: SqueezeNet Architecture 図6: SqueezeNetアーキテクチャ 0.84
3.4. Emotion Extraction from Network output 3.4. ネットワーク出力からの感情抽出 0.79
Output from the 出力 from ~ はあ? 0.62
layers fully connected is provided to softmax to extract out the classes. 層 完全接続 クラスを抽出するためにsoftmaxに提供される。 0.76
In our framework, we are concerned about two distinct classes (i.e., Happy Music clip, Sad Music clip). 私たちのフレームワークでは、2つの異なるクラス(Happy Music clip、Sad Music clip)について懸念しています。 0.74
All the four architectures contain 1000 channels in last fully connected networks by default 1000 classes of ILSVRC (ImageNet Large-Scale Visual Recognition Challenge). すべての4つのアーキテクチャは、ilsvrc(imagenet large-scale visual recognition challenge)の1000クラスをデフォルトとして、最後の完全接続ネットワークに1000チャンネルを含む。 0.66
So, we added another fully connected layer of 2 channels at the end to cater our purpose. そのため、目的を達成するために、最後に2つのチャネルの完全な接続層を追加しました。 0.65
After this last fully connected layer a softmax is performed to extract out the emotion classes. この最後の完全連結層の後、softmaxを実行して感情クラスを抽出する。 0.79
Fig.7: MobileNet Architecture 図7:MobileNetアーキテクチャ 0.82
4. EXPERIMENTS AND RESULTS As a classification task, some criteria are being used to quantify the classification performance. 4. 実験と成果 分類タスクとして、分類性能の定量化にいくつかの基準が使用されている。 0.70
MSE (mean squared error), MAE (mean absolute error) has been used a lot as loss functions for image purposes. MSE(平均二乗誤差)、MAE(平均絶対誤差)は画像目的の損失関数として多用されている。 0.84
In our classification task we have made use of cross entropy loss. 分類タスクでは、クロスエントロピー損失を利用しています。 0.64
Entropy is a measure of uncertainty, and it is measured as, エントロピーは不確実性の尺度であり、測定される。 0.65
𝐻(𝑋) = { 𝐻(𝑋) = { 0.85
− ∫ 𝑝(𝑥) log(𝑝(𝑥)) , − P(x) log(p(x)) , 0.70
𝑥 𝑖𝑠 𝑐𝑜𝑛𝑡𝑖𝑛𝑢𝑜𝑠 𝑟𝑎𝑛𝑑𝑜𝑚 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑥 𝑖𝑠 𝑐𝑜𝑛𝑡𝑖𝑛𝑢𝑜𝑠 𝑟𝑎𝑛𝑑𝑜𝑚 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 0.85
− ∑ 𝑝(𝑥) log(𝑝(𝑥)) , − P(x) log(p(x)) , 0.72
𝑥 𝑖𝑠 𝑑𝑖𝑠𝑐𝑟𝑒𝑡𝑒 𝑟𝑎𝑛𝑑𝑜𝑚 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑥 𝑖𝑠 𝑑𝑖𝑠𝑐𝑟𝑒𝑡𝑒 𝑟𝑎𝑛𝑑𝑜𝑚 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 0.85
Cross entropy loss (by using the idea of Entropy) measures the resemblance of actual output against predicted output. クロスエントロピー損失(cross entropy loss)は、予測された出力に対する実際の出力の類似度を測定する。 0.78
Cross entropy increases along with the divergence of 交叉エントロピーは発散に伴って増加する 0.81
英語(論文から抽出)日本語訳スコア
prediction from actual output. 実際の出力から予測します 0.74
Hence a 0 loss represents perfect model. したがって 0 の損失は完全モデルを表す。 0.76
Cross entropy loss or Log loss is being calculated using the following equation: クロスエントロピー損失またはログ損失は以下の方程式を用いて計算されている。 0.70
𝐿 = − ∑ 𝑦𝑖log (𝑦𝑖̂) 𝐿 = − ∑ 𝑦𝑖log (𝑦𝑖̂) 0.94
w 𝑖 where 𝑦𝑖 is the calculated or predicted output and 𝑦𝑖̂ is the actual output. W 𝑖 yi は計算または予測された出力であり、y は実際の出力である。 0.76
Previously we have introduced our used framework and model improvisation. 以前は、使用済みのフレームワークとモデル即興を導入しました。 0.53
In this section we are illustrating the acquired results. この節では、取得した結果を図示します。 0.61
For our work, we used a train/validation split ratio as 85/15. 作業では,85/15の列車/バリデーションスプリット比を使用した。 0.65
In the training phase we receive a model cost (calculated from loss function) which indicates the model performance. トレーニング段階では、モデルのパフォーマンスを示すモデルコスト(損失関数から計算される)を受け取ります。 0.83
The loss curve for training phase for each model is shown in the Fig. 各モデルのトレーニングフェーズの損失曲線を図に示します。 0.67
8. With time (iterations) convergence is achieved for each of the models used and the performance of SquuezeNetV1 in the training phase also outperforms the other three models used. 8. 時間(イテレーション)の収束が使用されるモデルごとに達成され、トレーニングフェーズにおけるSquuezeNetV1のパフォーマンスも使用される他の3つのモデルよりも優れています。 0.79
The convergence plot helps to tune the parameters of CNN models. 収束プロットはCNNモデルのパラメータをチューニングするのに役立ちます。 0.68
After adjusting the parameters, we obtain the best results for each CNN Models. パラメータを調整した後、各CNNモデルに対して最適な結果を得る。 0.72
Table 1 shows the validation accuracy of the aforementioned models. 表1は上記のモデルの検証精度を示す。 0.82
Model VGG16 ResNet18 Model VGG16 ResNet18 0.78
SqueezeNetV1 MobileNetV2 SqueezeNetV1 MobileNetV2 0.71
Accuracy 99.007% 97.682% 99.669% 98.675% 精度 99.007% 97.682% 99.669% 98.675% 0.60
Table 1: Accuracies of different CNN models on the validation dataset 表1:検証データセット上の異なるCNNモデルの精度 0.71
From Table 1, we can see that SqueezeNetV1 seems to fit best with the acquired dataset. 表1から、SqueezeNetV1が取得したデータセットに最も適していることがわかります。 0.77
The dataset size (as of now) is not that huge which makes it suitable for light weight models (with fewer parameters) like SqueezeNetV1 which gives the best validation accuracy. データセットのサイズは(今のところ)それほど大きくなく、SqueezeNetV1のような軽量モデル(パラメータが少ない)に適しており、最高の検証精度を提供します。 0.84
Iteration (a) VGG16 イテレーション (a)VGG16 0.78
Iteration (b) ResNet18 イテレーション (b) ResNet18 0.80
Iteration (c) MobileNetV2 イテレーション (c) MobileNetV2 0.80
Iteration (d) SqueezeNetV1 イテレーション (d) SqueezeNetV1 0.80
Fig.8: Training Loss curves 図8:訓練損失曲線 0.88
英語(論文から抽出)日本語訳スコア
5. CONCLUSION In this work, we proposed a novel dataset called JUMusEmoDB which presently has 400 audio clips (30 seconds each) where 200 clips correspond to happy emotions and the remaining 200 clips correspond to sad emotion. 5. 結論 本研究では,200クリップがハッピー感情に対応し,残りの200クリップが悲しい感情に対応する,400のオーディオクリップ(それぞれ30秒)を持つjumusemodbという新しいデータセットを提案する。 0.69
The initial annotations and emotional classification of the database has been done based on an emotional rating test (5-point Likert scale) performed by 100 participants. データベースの最初のアノテーションと感情分類は、100人の参加者が行った感情評価テスト(5-point likert scale)に基づいて行われた。 0.80
We also demonstrated the performances of four deep CNN based architectures namely resnet18, mobilenet v2.0, squeezenet v1.0 and vgg16. また,resnet18, mobilenet v2.0, tightnet v1.0, vgg16の4つのディープCNNアーキテクチャの性能を実演した。 0.57
Validation accuracy values showed that SqueezeNetV1 performed the best out of the four models. 検証精度は、SqueezeNetV1が4つのモデルの中で最高の性能を示した。 0.66
Even though the advantage of employing CNN based architectures for tackling the problem of music emotion recognition include better overall accuracy because of better extraction of useful features from the data compared to other traditional methods, further studies need to be conducted to understand the source of emotions for a given music. 音楽感情認識の問題を解決するためにCNNベースのアーキテクチャを採用する利点は、従来の方法に比べてデータから有用な特徴を抽出する方が優れているため、全体的な精度が向上するにもかかわらず、特定の音楽の感情の源を理解するためにさらなる研究を行う必要がある。 0.72
Another limitation of this work is the lack of data in our dataset, but this is a pilot study it is still under development. この作業のもうひとつの制限は、データセットにデータがないことですが、これはまだ開発中のパイロット研究です。 0.82
We plan to incorporate more data containing other emotional features as well and eventually make the dataset publicly available shortly. 他の感情的な機能を含むより多くのデータを取り入れ、最終的にはデータセットを近々公開する予定です。 0.64
ACKNOWLEDGEMENT ACKNOWLEDGement 0.72
Archi Banerjee acknowledges the Department of Science and Technology (DST), Govt. Archi Banerjeeは、Govtの科学技術省(DST)を認めています。 0.79
of India for providing the DST CSRI Post Doctoral Fellowship (DST/CSRI/PDF-34/201 8) to pursue this research work. DST CSRI Post Doctoral Fellowship(DST/CSRI/ PDF-34/2018)をインドに提供し、研究活動を推進しています。 0.62
Shankha Sanyal acknowledges DST CSRI, Govt of India for providing the funds related to this Major Research Project (DST/CSRI/2018/78 (G)) and the Acoustical Society of America (ASA) for providing the International Students Grant. Shankha Sanyalは、この主要な研究プロジェクト(DST/CSRI/2018/78(G) )と米国音響学会(ASA)に関連する資金を提供したDST CSRI、インドのGovtを認めています。 0.78
REFERENCES [1] Simonyan, Karen, and Andrew Zisserman. ReFERENCES [1] Simonyan, Karen, and Andrew Zisserman 0.73
"Very deep convolutional networks for large- 「大容量の深い畳み込みネットワーク」 0.74
scale image recognition." 画像認識のスケール。 0.66
arXiv preprint arXiv:1409.1556 (2014). arXiv preprint arXiv:1409.1556 (2014) 0.84
[2] He, Kaiming, et al. [2] He, Kaiming, et al。 0.79
"Deep residual learning for image recognition." 「画像認識のための深層残存学習」 0.78
Proceedings of the IEEE conference on computer vision and pattern recognition. IEEEの進捗状況 コンピュータビジョンとパターン認識に関する会議です 0.78
2016. [3] Iandola, Forrest N., et al. 2016. Iandola, Forrest N., et al.[3]Iandola, Forrest N., 0.81
"SqueezeNet: AlexNet-level accuracy with 50x fewer parameters 「SqueezeNet:パラメータ50倍少ないAlexNetレベルの精度 0.87
and< 0.5 MB model size." 0.5MBのモデルサイズ。 0.61
arXiv preprint arXiv:1602.07360 (2016). arXiv preprint arXiv:1602.07360 (2016)。 0.77
[4] Sandler, Mark, et al. 4] Sandler, Mark, et al。 0.72
"Mobilenetv2: Inverted residuals and linear bottlenecks." 「mobilenetv2:反転残差と線形ボトルネック」 0.73
Proceedings of the IEEE conference on computer vision and pattern recognition. 経過 IEEEのコンピュータビジョンとパターン認識に関する会議。 0.56
2018. [5] Barthet, Mathieu, György Fazekas, and Mark Sandler. 2018. 5] Barthet、Mathieu、György Fazekas、Mark Sandler。 0.73
"Music emotion recognition: From 『音楽の感情認識』から 0.71
content-to context-based models." content-to context-based model」。 0.61
International Symposium on Computer Music Modeling and Retrieval. International Symposium on Computer Music Modeling and Retrieval (英語) 0.83
Springer, Berlin, Heidelberg, 2012. スプリンガー、ベルリン、ハイデルベルク、2012年。 0.58
[6] Turnbull, Douglas, et al. 6] Turnbull, Douglas, et al. 0.74
"Towards musical query-by-semantic-de scription using the cal500 『Cal500を用いた音楽問合せ記述へ』 0.54
data set." Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval. データセット」。 情報検索の研究開発に関する第30回ACM SIGIR国際会議の進行。 0.70
2007. [7] Wang, Shuo-Yang, et al. 2007. 7]wang,shuo-yang, et al. 0.81
"Towards time-varying music auto-tagging based on CAL500 『CAL500に基づく時変音楽自動タグ付けへ』 0.68
expansion." 2014 IEEE International Conference on Multimedia and Expo (ICME). 拡張」。 2014 IEEE International Conference on Multimedia and Expo (ICME) に参加。 0.79
IEEE, 2014. 2014年、IEEE。 0.65
[8] Turnbull, Douglas, et al. 8] Turnbull, Douglas, et al. 0.74
"Towards musical query-by-semantic-de scription using the cal500 『Cal500を用いた音楽問合せ記述へ』 0.54
data set." Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval. データセット」。 情報検索の研究開発に関する第30回ACM SIGIR国際会議の進行。 0.70
2007. [9] Juthi J.H., Gomes A., Bhuiyan T., Mahmud I. 2007. 9] Juthi J.H., Gomes A., Bhuiyan T., Mahmud I。 0.85
(2020) Music Emotion Recognition with the (2020年)音楽の感情認識 0.73
Extraction of Audio Features Using Machine Learning Approaches. 機械学習を用いた音声特徴量の抽出 0.74
In: Singh P., Panigrahi B., Suryadevara N., Sharma S., Singh A. In: Singh P.、Panigrahi B.、Suryadevara N.、Sharma S.、Singh A。 0.79
(eds) Proceedings of ICETIT 2019. (eds) ICETIT 2019の進捗状況。 0.76
Lecture Notes in 講義ノート 0.51
英語(論文から抽出)日本語訳スコア
Electrical Engineering, vol 605. 電気工学、605号機。 0.79
Springer, Cham. https://doi.org/10.1 007/978-3-030-305772 _27 バネ、チャム。 https://doi.org/10.1 007/978-3-030-305772 _27 0.34
[10] Liu, Xin, et al. [10] Liu, Xin, et al。 0.83
"CNN based music emotion classification." ; 「CNNに基づく音楽感情分類」 0.76
arXiv preprint arXiv プレプリント 0.83
arXiv:1704.05665 (2017). arXiv:1704.05665 (2017)。 0.69
[11] Liu, Tong, et al. [11] Liu, Tong, et al。 0.83
"Audio-based deep music emotion recognition." 「オーディオに基づく深い音楽感情認識」 0.77
AIP Conference Proceedings. AIP会議 進行中。 0.64
Vol. 1967. Vol。 1967. 0.83
No. 1. AIP Publishing LLC, 2018. いいえ。 1. AIP Publishing LLC、2018年。 0.84
[12] Yang, Yi-Hsuan, and Homer H. Chen. 12] Yang、Yi-Hsuan、Homer H. Chen。 0.71
"Machine recognition of music emotion: A review." 『音楽感情の機械認識:レビュー』。 0.67
ACM Transactions on Intelligent Systems and Technology (TIST) 3.3 (2012): 1-30. ACM Transactions on Intelligent Systems and Technology (TIST) 3.3 (2012): 1-30。 0.91
[13] Sanyal, Shankha, et al. [13] Sanyal, Shankha, et al。 0.83
"Music of brain and music on brain: a novel EEG sonification 「脳と音楽の音楽:脳波の新音化 0.64
approach." Cognitive neurodynamics 13.1 (2019): 13-31. アプローチ」。 認知神経力学 13.1 (2019): 13-31。 0.59
[14] Sengupta, Sourya, et al. [14] Sengupta, Sourya, et al。 0.83
"Emotion specification from musical stimuli: An EEG study with 『音楽刺激からの感情指定:脳波による研究 0.64
AFA and DFA." 2017 4th International Conference on Signal Processing and Integrated Networks (SPIN). AFAとDFA。 2017年 第4回信号処理統合ネットワーク国際会議(SPIN)。 0.68
IEEE, 2017. 2017年、IEEE。 0.63
[15] Nag, Sayan, et al. [15]Nag, Sayan, et al. 0.79
"Can musical emotion be quantified with neural jitter or shimmer? 「音楽的感情は神経ジッタやシマーで定量化できるか。」 0.62
A novel EEG based study with Hindustani classical music." A ヒンドゥーダニの古典音楽に関する小説『EEG』。 0.78
2017 4th International Conference on Signal Processing and Integrated Networks (SPIN). 2017年 第4回信号処理統合ネットワーク国際会議(SPIN)。 0.74
IEEE, 2017. 2017年、IEEE。 0.63
[16] Sarkar, Uddalok, et al. [16] Sarkar, Uddalok, et al。 0.83
"A Simultaneous EEG and EMG Study to Quantify Emotions from Hindustani Classical Music." 「Hindustani Classical Musicからの感情を定量化するための同時脳波とEMG研究」 0.77
Recent Developments in Acoustics. Springer, Singapore, 2020. 音響学の最近の進歩 スプリンガー、シンガポール、2020年。 0.66
285-299. [17] 285-299. [17] 0.78
Sayan Nag, Uddalok Sarkar, Shankha Sanyal, Archi Banerjee, Souparno Roy. Sayan Nag, Uddalok Sarkar, Shankha Sanyal, Archi Banerjee, Souparno Roy 0.75
Samir Karmakar, Ranjan Sengupta, Dipak Ghosh. サミール karmakar、ranjan sengupta、dipak ghoshなど。 0.66
A Fractal Approach to Characterize Emotions in Audio and Visual Domain: a Study on Cross-Modal Interaction. 音声と視覚領域における感情を特徴付けるフラクタル的アプローチ : クロスモーダルインタラクションに関する研究 0.78
Journal of Image Processing & Pattern Recognition Progress. journal of image processing & pattern recognition progress(英語) 0.79
2019; 6(3): 1–7p. 2019年;6(3):1-7p。 0.73
[18] Krizhevsky, A., Sutskever, I., & Hinton, G. E. Imagenet classification with deep [18]Krizhevsky, A., Sutskever, I., & Hinton, G. E. Imagenet classification with Deep 0.92
convolutional neural networks. 畳み込みニューラルネットワーク。 0.62
In Advances in neural information processing systems (pp. 神経情報処理システムの進歩(pp。 0.61
1097-1105)(2012). 1097-1105)(2012). 0.92
[19] LeCun, Y. [19] LeCun、Y。 0.79
(2015). LeNet-5, convolutional neural networks. (2015). LeNet-5 - 畳み込みニューラルネットワーク。 0.81
URL: http://yann. URL: http://yann.com 0.72
lecun. com/exdb/lenet, 20. レクン com/exdb/lenet, 20。 0.56
[20] LeCun, Yann, Yoshua Bengio, and Geoffrey Hinton. [20] LeCun、Yann、Yoshua Bengio、Geoffrey Hinton。 0.74
"Deep learning." nature 521.7553 「深層学習」 自然 521.7553 0.60
(2015): 436-444. (2015): 436-444. 0.92
[21] Goodfellow, Ian, et al. [21]Goodfellow, Ian, et al。 0.81
"Generative adversarial nets." 『創世的逆転ネット』 0.37
Advances in neural information processing systems. 神経情報学の進歩 処理システム。 0.76
2014. [22] Goodfellow, Ian, et al. 2014. [22]Goodfellow, Ian, et al。 0.83
Deep learning. Vol. 深層学習。 Vol。 0.75
1. No. 2. 1. いいえ。 2. 0.82
Cambridge: MIT press, 2016. cambridge: mit press、2016年。 0.64
[23] Xu, Kelvin, et al. [23]Xu, Kelvin, et al. 0.81
"Show, attend and tell: Neural image caption generation with visual 「Show, attend and tell:Neural image cast generation with visual」 0.83
attention." International conference on machine learning. 注意」。 機械学習に関する国際会議。 0.72
2015. [24] Kingma, Diederik P., and Max Welling. 2015. 24] Kingma、Diederik P.、Max Welling。 0.74
"Auto-encoding variational bayes." 「自動符号化可変ベイ」 0.68
arXiv preprint arXiv:1312.6114 (2013). arXiv arXiv:1312.6114 (2013) 0.82
[25] Baldi, P. Autoencoders, unsupervised learning, and deep architectures. [25] Baldi、P. Autoencoders、教師なし学習、そして深いアーキテクチャ。 0.81
In Proceedings of ICML Workshop on Unsupervised and Transfer Learning (pp. 手続き中 ICML Workshop on Unsupervised and Transfer Learning (p。 0.64
37-49)(2012, June). 37-49(2012年6月)。 0.79
[26] Ronneberger, Olaf, Philipp Fischer, and Thomas Brox. 26] Ronneberger、Olaf、Philipp Fischer、Thomas Brox。 0.63
"U-net: Convolutional networks U-net:畳み込みネットワーク 0.74
for biomedical image segmentation." バイオメディカル画像のセグメンテーション」。 0.65
International Conference on Medical image computing and computer-assisted intervention. 国際医用画像計算会議とコンピュータによる介入。 0.75
Springer, Cham, 2015. 2015年、チャムのSpringer。 0.60
[27] Hammernik, Kerstin, et al. 27] Hammernik, Kerstin, et al。 0.70
"Learning a variational network for reconstruction of 「復元のための変分ネットワークの学習」 0.81
accelerated MRI data." 加速したMRIデータ」。 0.78
Magnetic resonance in medicine 79.6 (2018): 3055-3071. 医学における磁気共鳴 79.6 (2018): 3055-3071。 0.68
[28] Bhattacharyya, Mayukh, and Sayan Nag. [28] Bhattacharyya、Mayukh、Sayan Nag。 0.72
"Hybrid Style Siamese Network: Incorporating 『ハイブリッド・スタイル・シアムス・ネットワーク』編入 0.52
style loss in complimentary apparels retrieval." 衣料品の検索におけるスタイル損失」。 0.67
arXiv preprint arXiv:1912.05014 (2019). arXiv preprint arXiv:1912.05014 (2019)。 0.76
英語(論文から抽出)日本語訳スコア
[29] Pu, Yunchen, et al. [29] Pu, Yunchen, et al。 0.82
"Variational autoencoder for deep learning of images, labels and 「画像・ラベル・画像の深層学習のためのバリアショナルオートエンコーダ」 0.70
captions." Advances in neural information processing systems. キャプション」。 神経情報処理システムの進歩。 0.63
2016. [30] Nag, Sayan. 2016. [30]ナグ、サイアン。 0.72
"Lookahead optimizer improves the performance of Convolutional 「ローカヘッドオプティマイザ」による畳み込み性能の向上 0.60
Autoencoders for reconstruction of natural images." 自然画像の復元のためのオートエンコーダー」。 0.64
arXiv preprint arXiv:2012.05694 (2020). arXiv preprint arXiv:2012.05694 (2020)。 0.76
[31] Alex Krizhevsky and Geoffrey Hinton. 31] Alex KrizhevskyとGeoffrey Hinton。 0.68
Learning multiple layers of features from tiny 小ささから複数の機能層を学ぶ 0.84
images. Technical report, University of Toronto, 2009 画像。 トロント大学, 2009年度技術報告 0.66
[32] Vincent, Pascal, et al. [32]Vincent, Pascal, et al. 0.82
"Stacked denoising autoencoders: Learning useful representations スタック・デノイジングオートエンコーダ:有用な表現の学習 0.63
in a deep network with a local denoising criterion." 地元の否定的な基準を持つ深いネットワークで」。 0.68
Journal of machine learning research 11.12 (2010). journal of machine learning research 11.12 (2010) 0.85
[33] Pu, Yunchen, et al. [33] Pu, Yunchen, et al。 0.82
"Variational autoencoder for deep learning of images, labels and 「画像・ラベル・画像の深層学習のためのバリアショナルオートエンコーダ」 0.70
captions." Advances in neural information processing systems. キャプション」。 神経情報処理システムの進歩。 0.63
2016. [34] Vincent, Pascal, et al. 2016. [34]Vincent, Pascal, et al. 0.83
"Extracting and composing robust features with denoising 『デノベーションによる頑丈な特徴の抽出と構成』 0.51
autoencoders." オートエンコーダー」。 0.62
Proceedings of the 25th international conference on Machine learning. 第25回機械学習に関する国際会議の進行。 0.83
2008. [35] Hochreiter, Sepp, and Jürgen Schmidhuber. 2008. [35]Hochreiter, Sepp, and Jürgen Schmidhuber。 0.81
"Long short-term memory." Neural 『長期短期記憶』 神経 0.56
computation 9.8 (1997): 1735-1780. 9.8 (1997): 1735-1780。 0.72
[36] Vaswani, Ashish, et al. [36]Vaswani, Ashish, et al. 0.82
"Attention is all you need." 「注意はあなたが必要とするすべてです。」 0.67
Advances in neural information processing systems 30 (2017): 5998-6008. 神経情報学の進歩 処理システム30 (2017):5998-6008。 0.81
[37] Brown, Tom B., et al. [37] Brown, Tom B., et al. 0.85
"Language models are few-shot learners." 「言語モデルはわずかな学習者です。」 0.74
arXiv preprint arXiv プレプリント 0.83
arXiv:2005.14165 (2020). arXiv:2005.14165 (2020)。 0.67
                   ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。