論文の概要: The artificial synesthete: Image-melody translations with variational
autoencoders
- arxiv url: http://arxiv.org/abs/2112.02953v1
- Date: Mon, 6 Dec 2021 11:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 23:06:36.587940
- Title: The artificial synesthete: Image-melody translations with variational
autoencoders
- Title(参考訳): 人工合成:可変オートエンコーダを用いた画像メロディ変換
- Authors: Karl Wienand, Wolfgang M. Heckl
- Abstract要約: ネットワークは、繰り返しの関節露光から音楽的概念と視覚的概念の対応集合を学習する。
結果として生じる「人工合成」は、イメージや音楽からのイメージにインスパイアされた単純な旋律を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Abstract This project presents a system of neural networks to translate
between images and melodies. Autoencoders compress the information in samples
to abstract representation. A translation network learns a set of
correspondences between musical and visual concepts from repeated joint
exposure. The resulting "artificial synesthete" generates simple melodies
inspired by images, and images from music. These are novel interpretation (not
transposed data), expressing the machine' perception and understanding.
Observing the work, one explores the machine's perception and thus, by
contrast, one's own.
- Abstract(参考訳): 抽象 このプロジェクトは、画像とメロディを翻訳するニューラルネットワークシステムを提供する。
オートエンコーダは、サンプル内の情報を抽象表現に圧縮する。
翻訳ネットワークは、繰り返しの関節露光から音楽的概念と視覚的概念の対応集合を学習する。
結果として生じる「人工合成」は、イメージや音楽からのイメージにインスパイアされた単純な旋律を生成する。
これらは、機械の認識と理解を表現する新しい解釈(転置データではない)である。
作業を観察すると、機械の知覚を探索し、対照的に自分自身を探索する。
関連論文リスト
- Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。
マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:27:12Z) - Compositional Mixture Representations for Vision and Text [43.2292923754127]
視覚と言語の間の共通表現空間により、ディープネットワークは画像内のオブジェクトと対応する意味の意味を関連付けることができる。
本稿では,テキストの合成性を視覚領域に含ませる共有ガウス混合表現を,明示的な位置監督を伴わずに学習するモデルを提案する。
論文 参考訳(メタデータ) (2022-06-13T18:16:40Z) - Advances in Neural Rendering [115.05042097988768]
本稿では,古典的レンダリングと学習された3Dシーン表現を組み合わせた手法について述べる。
これらの手法の重要な利点は、これらが3D一貫性を持ち、キャプチャされたシーンの新たな視点のようなアプリケーションを可能にすることである。
静的なシーンを扱う方法に加えて、非厳密な変形オブジェクトをモデル化するためのニューラルシーン表現についても取り上げる。
論文 参考訳(メタデータ) (2021-11-10T18:57:01Z) - Controlled Caption Generation for Images Through Adversarial Attacks [85.66266989600572]
画像特徴抽出には畳み込みニューラルネットワーク(CNN)、キャプション生成にはリカレントニューラルネットワーク(RNN)が使用される。
特に、その後の再帰的ネットワークに供給される視覚エンコーダの隠蔽層に対する攻撃について検討する。
本稿では、CNNの内部表現を模倣したニューラルネットワークキャプションの逆例を作成するためのGANベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-07T07:22:41Z) - Analogical Reasoning for Visually Grounded Language Acquisition [55.14286413675306]
子どもたちは、周囲の世界を観察し、記述を聴いて、無意識に言語を習得する。
本稿では,この能力をAIにもたらし,視覚的基盤を持つ言語習得の課題を研究する。
類似推論のための新しい機構を付加したマルチモーダル変圧器モデルを提案する。
論文 参考訳(メタデータ) (2020-07-22T20:51:58Z) - Embeddings as representation for symbolic music [0.0]
音楽の意味を含む方法で音楽のエンコードを可能にする表現技法は、コンピュータ音楽タスクのために訓練されたモデルの結果を改善する。
本稿では,データセットの3つの異なるバリエーションから音符を表現し,モデルが有用な音楽パターンを捉えることができるかどうかを解析するための埋め込み実験を行う。
論文 参考訳(メタデータ) (2020-05-19T13:04:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。