Fugu-MT 論文翻訳(概要): The artificial synesthete: Image-melody translations with variational autoencoders

論文の概要: The artificial synesthete: Image-melody translations with variational autoencoders

arxiv url: http://arxiv.org/abs/2112.02953v1
Date: Mon, 6 Dec 2021 11:54:13 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-07 23:06:36.587940
Title: The artificial synesthete: Image-melody translations with variational autoencoders
Title（参考訳）: 人工合成:可変オートエンコーダを用いた画像メロディ変換
Authors: Karl Wienand, Wolfgang M. Heckl
Abstract要約: ネットワークは、繰り返しの関節露光から音楽的概念と視覚的概念の対応集合を学習する。結果として生じる「人工合成」は、イメージや音楽からのイメージにインスパイアされた単純な旋律を生成する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Abstract This project presents a system of neural networks to translate between images and melodies. Autoencoders compress the information in samples to abstract representation. A translation network learns a set of correspondences between musical and visual concepts from repeated joint exposure. The resulting "artificial synesthete" generates simple melodies inspired by images, and images from music. These are novel interpretation (not transposed data), expressing the machine' perception and understanding. Observing the work, one explores the machine's perception and thus, by contrast, one's own.
Abstract（参考訳）: 抽象このプロジェクトは、画像とメロディを翻訳するニューラルネットワークシステムを提供する。オートエンコーダは、サンプル内の情報を抽象表現に圧縮する。翻訳ネットワークは、繰り返しの関節露光から音楽的概念と視覚的概念の対応集合を学習する。結果として生じる「人工合成」は、イメージや音楽からのイメージにインスパイアされた単純な旋律を生成する。これらは、機械の認識と理解を表現する新しい解釈(転置データではない)である。作業を観察すると、機械の知覚を探索し、対照的に自分自身を探索する。

関連論文リスト

Interpreting Graphic Notation with MusicLDM: An AI Improvisation of Cornelius Cardew's Treatise [4.9485163144728235]
本研究はコーネリアス・カーデューの論文に触発された音楽の作曲と即興の手法を提示する。 OpenAIのChatGPTを利用して、論文の抽象的な視覚要素を解釈することにより、これらのグラフィカル画像を記述的テキストプロンプトに変換する。これらのプロンプトは、音楽生成用に事前訓練された潜在拡散モデルであるMusicLDMに入力される。
論文参考訳（メタデータ） (2024-12-12T05:08:36Z)
Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文参考訳（メタデータ） (2024-06-26T04:53:11Z)
MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文参考訳（メタデータ） (2024-06-07T06:38:59Z)
Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文参考訳（メタデータ） (2023-08-03T05:27:12Z)
Compositional Mixture Representations for Vision and Text [43.2292923754127]
視覚と言語の間の共通表現空間により、ディープネットワークは画像内のオブジェクトと対応する意味の意味を関連付けることができる。本稿では,テキストの合成性を視覚領域に含ませる共有ガウス混合表現を,明示的な位置監督を伴わずに学習するモデルを提案する。
論文参考訳（メタデータ） (2022-06-13T18:16:40Z)
Advances in Neural Rendering [115.05042097988768]
本稿では,古典的レンダリングと学習された3Dシーン表現を組み合わせた手法について述べる。これらの手法の重要な利点は、これらが3D一貫性を持ち、キャプチャされたシーンの新たな視点のようなアプリケーションを可能にすることである。静的なシーンを扱う方法に加えて、非厳密な変形オブジェクトをモデル化するためのニューラルシーン表現についても取り上げる。
論文参考訳（メタデータ） (2021-11-10T18:57:01Z)
Controlled Caption Generation for Images Through Adversarial Attacks [85.66266989600572]
画像特徴抽出には畳み込みニューラルネットワーク(CNN)、キャプション生成にはリカレントニューラルネットワーク(RNN)が使用される。特に、その後の再帰的ネットワークに供給される視覚エンコーダの隠蔽層に対する攻撃について検討する。本稿では、CNNの内部表現を模倣したニューラルネットワークキャプションの逆例を作成するためのGANベースのアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-07-07T07:22:41Z)
Analogical Reasoning for Visually Grounded Language Acquisition [55.14286413675306]
子どもたちは、周囲の世界を観察し、記述を聴いて、無意識に言語を習得する。本稿では,この能力をAIにもたらし,視覚的基盤を持つ言語習得の課題を研究する。類似推論のための新しい機構を付加したマルチモーダル変圧器モデルを提案する。
論文参考訳（メタデータ） (2020-07-22T20:51:58Z)
Embeddings as representation for symbolic music [0.0]
音楽の意味を含む方法で音楽のエンコードを可能にする表現技法は、コンピュータ音楽タスクのために訓練されたモデルの結果を改善する。本稿では,データセットの3つの異なるバリエーションから音符を表現し,モデルが有用な音楽パターンを捉えることができるかどうかを解析するための埋め込み実験を行う。
論文参考訳（メタデータ） (2020-05-19T13:04:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。