論文の概要: Neural Photofit: Gaze-based Mental Image Reconstruction
- arxiv url: http://arxiv.org/abs/2108.07524v1
- Date: Tue, 17 Aug 2021 09:11:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-18 13:24:51.889357
- Title: Neural Photofit: Gaze-based Mental Image Reconstruction
- Title(参考訳): neural photofit: 視線に基づくメンタルイメージ再構成
- Authors: Florian Strohm, Ekta Sood, Sven Mayer, Philipp M\"uller, Mihai B\^ace,
Andreas Bulling
- Abstract要約: 我々は、人間の固定を利用して、人が考えている画像を視覚的にフォトフィット(顔複合体)にデコードする新しい方法を提案する。
提案手法は,3つのニューラルネットワーク – エンコーダ,スコアリングネットワーク,デコーダ – を組み合わせる。
本手法は平均ベースライン予測器を著しく上回り,視覚的に可視であり,観察者の心像に近いフォトフィットを復号できることを示す。
- 参考スコア(独自算出の注目度): 25.67771238116104
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a novel method that leverages human fixations to visually decode
the image a person has in mind into a photofit (facial composite). Our method
combines three neural networks: An encoder, a scoring network, and a decoder.
The encoder extracts image features and predicts a neural activation map for
each face looked at by a human observer. A neural scoring network compares the
human and neural attention and predicts a relevance score for each extracted
image feature. Finally, image features are aggregated into a single feature
vector as a linear combination of all features weighted by relevance which a
decoder decodes into the final photofit. We train the neural scoring network on
a novel dataset containing gaze data of 19 participants looking at collages of
synthetic faces. We show that our method significantly outperforms a mean
baseline predictor and report on a human study that shows that we can decode
photofits that are visually plausible and close to the observer's mental image.
- Abstract(参考訳): そこで本研究では, 被写体像をフォトフィット(界面複合体)に視覚的にデコードするために, 人間の固定を利用する新しい手法を提案する。
本手法は,エンコーダ,スコアリングネットワーク,デコーダの3つのニューラルネットワークを組み合わせたものである。
エンコーダは、画像の特徴を抽出し、人間の観察者が見た各顔のニューラルアクティベーションマップを予測する。
ニューラルスコアリングネットワークは、人およびニューラルアテンションを比較し、抽出された画像特徴ごとの関連スコアを予測する。
最後に、デコーダが最終的なフォトフィットにデコードする関連性によって重み付けられた全ての特徴の線形結合として、画像特徴を単一の特徴ベクトルに集約する。
合成顔のコラージュを見ている19人の視線データを含む新しいデータセットを用いてニューラルネットワークをトレーニングする。
提案手法は平均ベースライン予測器を著しく上回っており、視覚的に可視性があり、観察者の心的イメージに近いフォトフィットをデコードできることを示す人間の研究を報告している。
関連論文リスト
- Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。
我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。
本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T18:01:01Z) - Learning Multimodal Volumetric Features for Large-Scale Neuron Tracing [72.45257414889478]
オーバーセグメントニューロン間の接続を予測し,人間の作業量を削減することを目的としている。
最初はFlyTracingという名前のデータセットを構築しました。
本稿では,高密度なボリュームEM画像の埋め込みを生成するための,新しい接続性を考慮したコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-05T19:45:12Z) - Null Space Properties of Neural Networks with Applications to Image
Steganography [6.063583864878311]
与えられたニューラルネットワークのヌル空間は、最終的な予測に寄与しない入力データの一部を教えてくれます。
ここで説明する1つの応用は、画像ステガノグラフィーの方法につながる。
論文 参考訳(メタデータ) (2024-01-01T03:32:28Z) - Evaluating alignment between humans and neural network representations in image-based learning tasks [5.657101730705275]
トレーニング済みの860ドルのニューラルネットワークモデルの表現が、人間の学習軌跡にどのようにマッピングされているかテストしました。
トレーニングデータセットのサイズは人間の選択に沿った中核的な決定要因であるのに対し、マルチモーダルデータ(テキストと画像)による対照的なトレーニングは、人間の一般化を予測するために現在公開されているモデルの一般的な特徴であることがわかった。
結論として、事前訓練されたニューラルネットワークは、タスク間で伝達可能な認知の基本的な側面を捉えているように見えるため、認知モデルのための表現を抽出するのに役立つ。
論文 参考訳(メタデータ) (2023-06-15T08:18:29Z) - Ponder: Point Cloud Pre-training via Neural Rendering [93.34522605321514]
本稿では,識別可能なニューラルエンコーダによる点雲表現の自己教師型学習手法を提案する。
学習したポイントクラウドは、3D検出やセグメンテーションといったハイレベルなレンダリングタスクだけでなく、3D再構成や画像レンダリングといった低レベルなタスクを含む、さまざまなダウンストリームタスクに簡単に統合できる。
論文 参考訳(メタデータ) (2022-12-31T08:58:39Z) - Neural Novel Actor: Learning a Generalized Animatable Neural
Representation for Human Actors [98.24047528960406]
本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラル表現を学習するための新しい手法を提案する。
学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。
論文 参考訳(メタデータ) (2022-08-25T07:36:46Z) - The Brain-Inspired Decoder for Natural Visual Image Reconstruction [4.433315630787158]
本研究では,スパイクトレインの視覚的イメージを再構築するために,生物学的特性を持つディープラーニングニューラルネットワークアーキテクチャを提案する。
私たちのモデルは、ニューラルスパイクトから画像へのエンドツーエンドデコーダです。
提案手法は,画像の再構成に知覚的特徴を効果的に組み合わせることができることを示す。
論文 参考訳(メタデータ) (2022-07-18T13:31:26Z) - Learning Compositional Representations for Effective Low-Shot
Generalization [45.952867474500145]
本稿では、人間の認知に触発された画像符号化手法である、部分合成(RPC)としての認識を提案する。
RPCは、画像をまずそれらを正常な部分に分解し、次に各部分を少数のプロトタイプの混合体としてエンコードすることで、画像をエンコードする。
このタイプの学習は、低ショットの一般化タスクにおいて、深層畳み込みネットワークが直面するハードルを克服することができる。
論文 参考訳(メタデータ) (2022-04-17T21:31:11Z) - Neural Texture Extraction and Distribution for Controllable Person Image
Synthesis [46.570170624026595]
身体のポーズや外観を明示的に制御した参照画像から人間を再レンダリングすることを目的とした、制御可能な人物画像合成タスクに対処する。
人物画像が高度に構造化されていることを観察し、参照画像のセマンティックエンティティを抽出し、分散することにより、所望の画像を生成することを提案する。
論文 参考訳(メタデータ) (2022-04-13T03:51:07Z) - Neural Body: Implicit Neural Representations with Structured Latent
Codes for Novel View Synthesis of Dynamic Humans [56.63912568777483]
本稿では,人間の演奏者に対する新しい視点合成の課題について,カメラビューの少なさから考察する。
異なるフレームで学習されたニューラルネットワーク表現が、変形可能なメッシュにアンカーされた同じ遅延コードセットを共有することを前提とした新しい人体表現であるNeural Bodyを提案する。
ZJU-MoCapの実験により、我々の手法は、新規なビュー合成品質において、先行研究よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-12-31T18:55:38Z) - Neural Sparse Representation for Image Restoration [116.72107034624344]
スパース符号化に基づく画像復元モデルの堅牢性と効率に触発され,深部ネットワークにおけるニューロンの空間性について検討した。
本手法は,隠れたニューロンに対する空間的制約を構造的に強制する。
実験により、複数の画像復元タスクのためのディープニューラルネットワークではスパース表現が不可欠であることが示されている。
論文 参考訳(メタデータ) (2020-06-08T05:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。