論文の概要: The artificial synesthete: Image-melody translations with variational
autoencoders
- arxiv url: http://arxiv.org/abs/2112.02953v1
- Date: Mon, 6 Dec 2021 11:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 23:06:36.587940
- Title: The artificial synesthete: Image-melody translations with variational
autoencoders
- Title(参考訳): 人工合成:可変オートエンコーダを用いた画像メロディ変換
- Authors: Karl Wienand, Wolfgang M. Heckl
- Abstract要約: ネットワークは、繰り返しの関節露光から音楽的概念と視覚的概念の対応集合を学習する。
結果として生じる「人工合成」は、イメージや音楽からのイメージにインスパイアされた単純な旋律を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Abstract This project presents a system of neural networks to translate
between images and melodies. Autoencoders compress the information in samples
to abstract representation. A translation network learns a set of
correspondences between musical and visual concepts from repeated joint
exposure. The resulting "artificial synesthete" generates simple melodies
inspired by images, and images from music. These are novel interpretation (not
transposed data), expressing the machine' perception and understanding.
Observing the work, one explores the machine's perception and thus, by
contrast, one's own.
- Abstract(参考訳): 抽象 このプロジェクトは、画像とメロディを翻訳するニューラルネットワークシステムを提供する。
オートエンコーダは、サンプル内の情報を抽象表現に圧縮する。
翻訳ネットワークは、繰り返しの関節露光から音楽的概念と視覚的概念の対応集合を学習する。
結果として生じる「人工合成」は、イメージや音楽からのイメージにインスパイアされた単純な旋律を生成する。
これらは、機械の認識と理解を表現する新しい解釈(転置データではない)である。
作業を観察すると、機械の知覚を探索し、対照的に自分自身を探索する。
関連論文リスト
- Interpretable Semiotics Networks Representing Awareness [0.0]
本稿では,オブジェクトの知覚と表現を,コミュニケーションにおいて伝達されるときに追跡し,シミュレートする計算モデルについて述べる。
人による物体知覚モデルにより,ネットワークによる物体知覚を定義することができる。
我々のモデルは人間に限らず、「内部」表現から「外部」表現への処理を含むループを含むシステムに適用することができる。
論文 参考訳(メタデータ) (2023-10-08T16:05:17Z) - DeViL: Decoding Vision features into Language [53.88202366696955]
ポストホックな説明法は、ディープニューラルネットワークの意思決定プロセスを抽象化するためにしばしば批判されてきた。
この研究では、ビジョンバックボーンの異なるレイヤが学んだことについて、自然言語で記述したいと考えています。
我々は、トランスフォーマーネットワークをトレーニングし、任意の視覚層の個々の画像特徴を、分離した既製の言語モデルが自然言語に復号するプロンプトに変換する。
論文 参考訳(メタデータ) (2023-09-04T13:59:55Z) - Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。
マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:27:12Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Compositional Mixture Representations for Vision and Text [43.2292923754127]
視覚と言語の間の共通表現空間により、ディープネットワークは画像内のオブジェクトと対応する意味の意味を関連付けることができる。
本稿では,テキストの合成性を視覚領域に含ませる共有ガウス混合表現を,明示的な位置監督を伴わずに学習するモデルを提案する。
論文 参考訳(メタデータ) (2022-06-13T18:16:40Z) - Advances in Neural Rendering [115.05042097988768]
本稿では,古典的レンダリングと学習された3Dシーン表現を組み合わせた手法について述べる。
これらの手法の重要な利点は、これらが3D一貫性を持ち、キャプチャされたシーンの新たな視点のようなアプリケーションを可能にすることである。
静的なシーンを扱う方法に加えて、非厳密な変形オブジェクトをモデル化するためのニューラルシーン表現についても取り上げる。
論文 参考訳(メタデータ) (2021-11-10T18:57:01Z) - Controlled Caption Generation for Images Through Adversarial Attacks [85.66266989600572]
画像特徴抽出には畳み込みニューラルネットワーク(CNN)、キャプション生成にはリカレントニューラルネットワーク(RNN)が使用される。
特に、その後の再帰的ネットワークに供給される視覚エンコーダの隠蔽層に対する攻撃について検討する。
本稿では、CNNの内部表現を模倣したニューラルネットワークキャプションの逆例を作成するためのGANベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-07T07:22:41Z) - Analogical Reasoning for Visually Grounded Language Acquisition [55.14286413675306]
子どもたちは、周囲の世界を観察し、記述を聴いて、無意識に言語を習得する。
本稿では,この能力をAIにもたらし,視覚的基盤を持つ言語習得の課題を研究する。
類似推論のための新しい機構を付加したマルチモーダル変圧器モデルを提案する。
論文 参考訳(メタデータ) (2020-07-22T20:51:58Z) - Embeddings as representation for symbolic music [0.0]
音楽の意味を含む方法で音楽のエンコードを可能にする表現技法は、コンピュータ音楽タスクのために訓練されたモデルの結果を改善する。
本稿では,データセットの3つの異なるバリエーションから音符を表現し,モデルが有用な音楽パターンを捉えることができるかどうかを解析するための埋め込み実験を行う。
論文 参考訳(メタデータ) (2020-05-19T13:04:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。