論文の概要: Learning Interpretable Low-dimensional Representation via Physical
Symmetry
- arxiv url: http://arxiv.org/abs/2302.10890v4
- Date: Fri, 9 Feb 2024 06:02:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 21:19:30.439098
- Title: Learning Interpretable Low-dimensional Representation via Physical
Symmetry
- Title(参考訳): 物理対称性による解釈可能な低次元表現の学習
- Authors: Xuanjie Liu, Daniel Chin, Yichen Huang, Gus Xia
- Abstract要約: 現代物理学からインスピレーションを得て、物理対称性を時系列データの潜在空間に対する自己整合制約として利用する。
物理的対称性は、自己教師方式で非競合モノフォニック・オーディオから線形ピッチファクターを学習することにつながることを示す。
同じ手法がコンピュータビジョンに適用でき、ラベルなしで動く単純な物体のビデオから3Dカルテシア空間を学習することができる。
- 参考スコア(独自算出の注目度): 8.606028974758479
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We have recently seen great progress in learning interpretable music
representations, ranging from basic factors, such as pitch and timbre, to
high-level concepts, such as chord and texture. However, most methods rely
heavily on music domain knowledge. It remains an open question what general
computational principles give rise to interpretable representations, especially
low-dim factors that agree with human perception. In this study, we take
inspiration from modern physics and use physical symmetry as a self consistency
constraint for the latent space of time-series data. Specifically, it requires
the prior model that characterises the dynamics of the latent states to be
equivariant with respect to certain group transformations. We show that
physical symmetry leads the model to learn a linear pitch factor from
unlabelled monophonic music audio in a self-supervised fashion. In addition,
the same methodology can be applied to computer vision, learning a 3D Cartesian
space from videos of a simple moving object without labels. Furthermore,
physical symmetry naturally leads to counterfactual representation
augmentation, a new technique which improves sample efficiency.
- Abstract(参考訳): 近年,音高や音色といった基本的な要素から,和音やテクスチャといった高レベルな概念まで,解釈可能な音楽表現の学習に大きく進歩している。
しかし、ほとんどの手法は音楽分野の知識に大きく依存している。
一般的な計算原理が解釈可能な表現、特に人間の知覚に合致する低次元の要素を生み出すかという疑問は依然として残されている。
本研究では,現代物理学からインスピレーションを得て,時系列データの潜在空間に対する自己整合制約として物理対称性を用いる。
具体的には、ある群変換に関して同変であるように潜在状態のダイナミクスを特徴づける先行モデルが必要である。
物理対称性がモデルに,非ラベル単音節音楽音声からの線形ピッチ係数を自己教師あり方式で学習させることを示す。
さらに、同じ方法論をコンピュータビジョンに適用し、ラベルのない単純な移動物体のビデオから3dデカルト空間を学習することができる。
さらに、物理対称性は、サンプル効率を向上する新しい手法である、反ファクト的表現増強につながる。
関連論文リスト
- Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Towards fully covariant machine learning [0.0]
機械学習において、最も可視的な受動的対称性はグラフの可逆対称性または置換対称性である。
受動的対称性を尊重すべきならば,機械学習の実践について,dos と not について議論する。
論文 参考訳(メタデータ) (2023-01-31T16:01:12Z) - Learning Physical Dynamics with Subequivariant Graph Neural Networks [99.41677381754678]
グラフニューラルネットワーク(GNN)は、物理力学を学習するための一般的なツールとなっている。
物理法則は、モデル一般化に必須な帰納バイアスである対称性に従属する。
本モデルは,RigidFall上でのPhysylonと2倍低ロールアウトMSEの8つのシナリオにおいて,平均3%以上の接触予測精度の向上を実現している。
論文 参考訳(メタデータ) (2022-10-13T10:00:30Z) - Learning Motion-Dependent Appearance for High-Fidelity Rendering of
Dynamic Humans from a Single Camera [49.357174195542854]
外観のダイナミクスを学ぶ上で重要な課題は、違法に大量の観測を必要とすることである。
本手法は,1つの視点映像から,身体のポーズや新しいビューを時間的に協調的に生成できることを示す。
論文 参考訳(メタデータ) (2022-03-24T00:22:03Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - A Scaling Law for Synthetic-to-Real Transfer: A Measure of Pre-Training [52.93808218720784]
合成から現実への変換学習は,実タスクのための合成画像と接地真実アノテーションを用いた事前学習を行うフレームワークである。
合成画像はデータの不足を克服するが、事前訓練されたモデルで微調整性能がどのようにスケールするかは定かではない。
我々は、合成事前学習データの様々なタスク、モデル、複雑さにおける学習曲線を一貫して記述する、単純で一般的なスケーリング法則を観察する。
論文 参考訳(メタデータ) (2021-08-25T02:29:28Z) - Tracing Back Music Emotion Predictions to Sound Sources and Intuitive
Perceptual Qualities [6.832341432995627]
音楽感情認識は,音楽情報検索研究において重要な課題である。
より良いモデルに向けた重要なステップの1つは、モデルが実際にデータから学んでいるものを理解することである。
本研究では,高レベルの感情予測に結びつくスペクトル画像セグメントを用いて,モデル予測の説明を導出する方法を示す。
論文 参考訳(メタデータ) (2021-06-14T22:49:19Z) - Learning to dance: A graph convolutional adversarial network to generate
realistic dance motions from audio [7.612064511889756]
自然に音楽からダンスへと進むこと、つまりダンスを学ぶことは、人間が努力せずに演奏するより複雑な動きの1つである。
本稿では,音声情報から自動ダンス生成問題に取り組むために,グラフ畳み込みネットワークに基づく新しい手法を設計する。
提案手法は,入力された音楽音声に条件付き逆学習方式を用いて,異なる音楽スタイルの鍵となる動きを保存した自然な動きを生成する。
論文 参考訳(メタデータ) (2020-11-25T19:53:53Z) - NiLBS: Neural Inverse Linear Blend Skinning [59.22647012489496]
本稿では, 従来のスキン加工技術を用いて, ポーズによってパラメータ化されたニューラルネットワークを用いて変形を反転させる手法を提案する。
これらの変形を逆転する能力は、例えば距離関数、符号付き距離関数、占有率)の値を静止ポーズで事前計算し、文字が変形したときに効率的にクエリすることができる。
論文 参考訳(メタデータ) (2020-04-06T20:46:37Z) - Learning Style-Aware Symbolic Music Representations by Adversarial
Autoencoders [9.923470453197657]
我々は,文脈情報を用いた変動型オートエンコーダを組み込むための,フレキシブルで自然な手段として,逆正則化を活用することに注力する。
第1回音楽Adversarial Autoencoder(MusAE)について紹介する。
我々のモデルは、標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を有する。
論文 参考訳(メタデータ) (2020-01-15T18:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。