論文の概要: What am I Searching for: Zero-shot Target Identity Inference in Visual
Search
- arxiv url: http://arxiv.org/abs/2005.12741v2
- Date: Thu, 28 May 2020 19:49:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 05:11:25.010895
- Title: What am I Searching for: Zero-shot Target Identity Inference in Visual
Search
- Title(参考訳): 私が求めているもの:ビジュアル検索におけるゼロショットターゲットアイデンティティ推論
- Authors: Mengmi Zhang, Gabriel Kreiman
- Abstract要約: 眼球運動の振る舞いを復号することで、何を探しているのかを解読する方法を検討する。
対象物体の探索中に眼球運動をモニターする心理物理学実験を2回行った。
これらのエラー修正を用いて、ターゲットが何であるかを推測するモデル(InferNet)を開発した。
- 参考スコア(独自算出の注目度): 8.79670903535793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can we infer intentions from a person's actions? As an example problem, here
we consider how to decipher what a person is searching for by decoding their
eye movement behavior. We conducted two psychophysics experiments where we
monitored eye movements while subjects searched for a target object. We defined
the fixations falling on \textit{non-target} objects as "error fixations".
Using those error fixations, we developed a model (InferNet) to infer what the
target was. InferNet uses a pre-trained convolutional neural network to extract
features from the error fixations and computes a similarity map between the
error fixations and all locations across the search image. The model
consolidates the similarity maps across layers and integrates these maps across
all error fixations. InferNet successfully identifies the subject's goal and
outperforms competitive null models, even without any object-specific training
on the inference task.
- Abstract(参考訳): 人の行動から意図を推測できますか。
例として,眼球運動の振る舞いを復号することで,何を探しているのかを解読する方法を検討する。
対象物体の探索中に眼球運動をモニターする心理物理学実験を2回行った。
私たちは、 \textit{non-target}オブジェクトに落ちる修正を"エラー修正"と定義しました。
これらのエラー修正を用いて、ターゲットが何であるかを推測するモデル(InferNet)を開発した。
InferNetは、トレーニング済みの畳み込みニューラルネットワークを使用して、エラー修正から特徴を抽出し、エラー修正と検索イメージ全体にわたるすべてのロケーション間の類似マップを算出する。
このモデルはレイヤ間の類似度マップを統合し、これらのマップをすべてのエラーフィックスに統合する。
InferNetは、オブジェクト固有の推論タスクのトレーニングがなくても、被験者の目標を特定し、競合するnullモデルを上回っます。
関連論文リスト
- Visual Context-Aware Person Fall Detection [52.49277799455569]
画像中の個人とオブジェクトを半自動分離するセグメンテーションパイプラインを提案する。
ベッド、椅子、車椅子などの背景オブジェクトは、転倒検知システムに挑戦し、誤ったポジティブアラームを引き起こす。
トレーニング中のオブジェクト固有のコンテキスト変換が、この課題を効果的に軽減することを示す。
論文 参考訳(メタデータ) (2024-04-11T19:06:36Z) - Task Discovery: Finding the Tasks that Neural Networks Generalize on [1.4043229953691112]
ニューラルネットワークが一般化する多くのタスクを、ひとつのイメージセットが引き起こす可能性があることを示す。
一例として、検出したタスクを使用して、逆行テストの分割を自動的に生成できることが示される。
論文 参考訳(メタデータ) (2022-12-01T03:57:48Z) - Target-absent Human Attention [44.10971508325032]
探索終端問題に対処する最初のデータ駆動型計算モデルを提案する。
我々は、新しい状態表現を用いて、視聴者が固定によって取得する内部知識を表現する。
我々は,COCO-Search18データセット上での人的目標依存探索行動の予測における技術の現状を改善した。
論文 参考訳(メタデータ) (2022-07-04T02:32:04Z) - Location-Sensitive Visual Recognition with Cross-IOU Loss [177.86369890708457]
本稿では,オブジェクト検出,インスタンスセグメンテーション,ポーズ推定のための位置感知ネットワーク (LSNet) という統合ソリューションを提案する。
ディープニューラルネットワークをバックボーンとして、LSNetは、ターゲットオブジェクトの形状を一緒に定義するアンカーポイントとランドマークのセットを予測します。
論文 参考訳(メタデータ) (2021-04-11T02:17:14Z) - Occlusion-Aware Search for Object Retrieval in Clutter [4.693170687870612]
乱雑な棚から対象物を回収する操作タスクに対処する。
対象物が隠された場合、ロボットはそれを回収するために溝を探索しなければならない。
クローズドループにおけるオクルージョン認識動作を生成するためのデータ駆動型ハイブリッドプランナを提案する。
論文 参考訳(メタデータ) (2020-11-06T13:15:27Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - Assisting Scene Graph Generation with Self-Supervision [21.89909688056478]
本稿では,3つの新しい自己スーパービジョンタスクのセットを提案し,それらをメインモデルへの補助的マルチタスクとして訓練する。
比較しながら、これらのセルフスーパービジョンタスクでベースモデルをスクラッチからトレーニングし、すべてのメトリクスとリコール設定で最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-08-08T16:38:03Z) - Entropy Guided Adversarial Model for Weakly Supervised Object
Localization [11.77745060973134]
トレーニング中にネットワークが生成したCAMにシャノンエントロピーを適用して誘導する。
我々の手法は、画像のどの部分も消去しないし、ネットワークのアーカイトキュアも変更しない。
我々のEntropy Guided Adversarial Model(EGAモデル)は、ローカライゼーションと分類精度の両面において、最先端のアーツベンチマークの性能を改善した。
論文 参考訳(メタデータ) (2020-08-04T19:39:12Z) - Self-Supervised Viewpoint Learning From Image Collections [116.56304441362994]
本稿では,解析・合成パラダイムを取り入れた新たな学習フレームワークを提案する。
提案手法は,人間の顔,車,バス,電車など,複数の対象カテゴリに対して,完全に教師されたアプローチに対して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:01:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。