論文の概要: Latent Compass: Creation by Navigation
- arxiv url: http://arxiv.org/abs/2012.14283v1
- Date: Sun, 20 Dec 2020 04:18:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 04:48:41.018317
- Title: Latent Compass: Creation by Navigation
- Title(参考訳): 潜航コンパス:ナビゲーションによる創造
- Authors: Sarah Schwettmann, Hendrik Strobelt, Mauro Martino
- Abstract要約: 私たちは、複製可能で、転送可能で、操作可能な、AIを使った創造の未来を思い描いています。
アクティブな研究のラインは、人間の解釈可能な特徴をGAN潜在空間の方向へマッピングする。
我々は、人間の知覚の豊かさと一般化性を捉える方向発見ツールを欲しがっている。
- 参考スコア(独自算出の注目度): 10.809893662563928
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In Marius von Senden's Space and Sight, a newly sighted blind patient
describes the experience of a corner as lemon-like, because corners "prick"
sight like lemons prick the tongue. Prickliness, here, is a dimension in the
feature space of sensory experience, an effect of the perceived on the
perceiver that arises where the two interact. In the account of the newly
sighted, an effect familiar from one interaction translates to a novel context.
Perception serves as the vehicle for generalization, in that an effect shared
across different experiences produces a concrete abstraction grounded in those
experiences. Cezanne and the post-impressionists, fluent in the language of
experience translation, realized that the way to paint a concrete form that
best reflected reality was to paint not what they saw, but what it was like to
see. We envision a future of creation using AI where what it is like to see is
replicable, transferrable, manipulable - part of the artist's palette that is
both grounded in a particular context, and generalizable beyond it.
An active line of research maps human-interpretable features onto directions
in GAN latent space. Supervised and self-supervised approaches that search for
anticipated directions or use off-the-shelf classifiers to drive image
manipulation in embedding space are limited in the variety of features they can
uncover. Unsupervised approaches that discover useful new directions show that
the space of perceptually meaningful directions is nowhere close to being fully
mapped. As this space is broad and full of creative potential, we want tools
for direction discovery that capture the richness and generalizability of human
perception. Our approach puts creators in the discovery loop during real-time
tool use, in order to identify directions that are perceptually meaningful to
them, and generate interpretable image translations along those directions.
- Abstract(参考訳): マリウス・フォン・センデン(Marius von Senden)の『Space and Sight』では、新たに目撃された盲目の患者が、角をレモンのような感じで表現している。
pricklinessは、感覚体験の特徴空間における次元であり、両者が相互作用する場所に存在する知覚者に対する知覚の影響である。
新しく目撃された場合、ある相互作用から慣れ親しんだ効果は、新しい文脈に翻訳される。
知覚は、異なる経験間で共有される効果が、それらの経験に基づく具体的な抽象化を生み出すという、一般化の手段として機能する。
セザンヌとポスト印象派は経験翻訳の言語に精通しており、現実を最もよく反映した具体的な形を描く方法は、彼らが見たものではなく、見るべきものを描くことであることに気付いた。
私たちは、aiを使って創造する未来を想定しています。そこでは、どのように見えるかは、レプリカブル、転送可能、マニピュラブルです - アーティストのパレットの一部で、どちらも特定のコンテキストに基礎を置き、その上に一般化します。
アクティブな研究のラインは、人間の解釈可能な特徴をGAN潜在空間の方向へマッピングする。
予測方向の探索や、組込み空間における画像操作を駆動するオフザシェルフ分類器を用いた教師付きおよび自己監督型のアプローチは、発見できる様々な機能に限られている。
有意義な新しい方向を見つける教師なしのアプローチは、知覚的に有意義な方向の空間が完全にマッピングされるには程遠いことを示している。
この空間は広く創造的な可能性に満ちているため、人間の知覚の豊かさと一般化性を捉える方向発見ツールが求められている。
提案手法は,視覚的に意味のある方向を特定し,その方向に沿って解釈可能な画像翻訳を生成するために,リアルタイムツール使用中の発見ループにクリエーターを配置する。
関連論文リスト
- Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Semantic Exploration from Language Abstractions and Pretrained
Representations [23.02024937564099]
効果的な探究は強化学習(RL)の課題である
意味論的に意味のある状態抽象化を用いて新規性を定義する。
自然画像キャプションデータセットに基づく視覚言語表現の評価を行った。
論文 参考訳(メタデータ) (2022-04-08T17:08:00Z) - Multimodal perception for dexterous manipulation [14.314776558032166]
視覚と触覚の変換のためのクロスモーダルな知覚データ生成フレームワークを提案する。
本稿では,空間的特徴と時間次元を考慮した触覚テクスチャ認識のための時間的アテンションモデルを提案する。
論文 参考訳(メタデータ) (2021-12-28T21:20:26Z) - Exploring the Sensory Spaces of English Perceptual Verbs in Natural
Language Data [0.40611352512781856]
エージェント対経験的区別から分析された英語の最も頻繁な知覚動詞に着目した。
本研究では,分散-意味的単語埋め込みとクラスタリングモデルに基づくデータ駆動型アプローチについて報告する。
論文 参考訳(メタデータ) (2021-10-19T03:58:44Z) - Toward a Visual Concept Vocabulary for GAN Latent Space [74.12447538049537]
本稿では,GANの潜在空間で表現される原始視覚概念のオープンエンド語彙を構築するための新しい手法を提案する。
提案手法は, 層選択性に基づく知覚的正当方向の自動識別, 自由形, 構成的自然言語記述による人為的アノテーションの3つの要素から構成される。
実験により、我々のアプローチで学んだ概念は信頼性があり、構成可能であることが示され、クラス、コンテキスト、オブザーバをまたいで一般化される。
論文 参考訳(メタデータ) (2021-10-08T17:58:19Z) - Pathdreamer: A World Model for Indoor Navigation [62.78410447776939]
本研究では,新しい屋内環境をナビゲートするエージェントの視覚的世界モデルPathdreamerを紹介する。
過去に1つ以上の視覚観測がなされると、パスドレーマーは可視性の高い高解像度の360度視覚観測を生成する。
不確実性の高い地域では、Pathdreamerは多様なシーンを予測でき、エージェントは複数の現実的な結果をサンプリングすることができる。
論文 参考訳(メタデータ) (2021-05-18T18:13:53Z) - HumanGPS: Geodesic PreServing Feature for Dense Human Correspondences [60.89437526374286]
先行芸術はフレーム間の小さな動きを仮定するか、または大きな動きや視覚的に曖昧な身体部分を扱うことができないローカル記述子に依存します。
本稿では,各画素を特徴空間にマッピングし,特徴距離が画素間の測地距離を反映する深層学習フレームワークを提案する。
セマンティックアノテーションがなければ、提案する埋め込みは自動的に学習し、視覚的に類似した部分を区別し、異なる主題を統一された機能空間にまとめる。
論文 参考訳(メタデータ) (2021-03-29T12:43:44Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z) - Visual Prediction of Priors for Articulated Object Interaction [37.759459329701194]
人間は先行体験を迅速かつ効率的に構築することができる。
大人は台所などの新しい空間に入る際にもこの行動を示す。
我々は、視覚を通して、類似したドメイン間の相互作用間で知識を伝達する手段を提供する、コンテキスト優先予測法を開発した。
論文 参考訳(メタデータ) (2020-06-06T21:17:03Z) - VisualEchoes: Spatial Image Representation Learning through Echolocation [97.23789910400387]
いくつかの動物種(コウモリ、イルカ、クジラなど)や視覚障害者さえもエコーロケーションを行う能力を持っている。
エコーロケーションを用いて有用な視覚特徴を学習する対話型表現学習フレームワークを提案する。
我々の研究は、物理的世界との相互作用によって監督される、エンボディエージェントのための表現学習の新しい道を開く。
論文 参考訳(メタデータ) (2020-05-04T16:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。