論文の概要: What You Can Learn by Staring at a Blank Wall
- arxiv url: http://arxiv.org/abs/2108.13027v1
- Date: Mon, 30 Aug 2021 07:30:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 14:37:17.964160
- Title: What You Can Learn by Staring at a Blank Wall
- Title(参考訳): 空白の壁を見つめて学ぶことは
- Authors: Prafull Sharma, Miika Aittala, Yoav Y. Schechner, Antonio Torralba,
Gregory W. Wornell, William T. Freeman, Fredo Durand
- Abstract要約: 未知の部屋の空き壁の観測から人の人数や活動量を推定する受動的非視線法を提案する。
本手法は,壁面の映像における間接照明の複雑な変化を解析し,シーンの隠れた部分の動作と相関する信号を明らかにする。
- 参考スコア(独自算出の注目度): 92.68037992130559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a passive non-line-of-sight method that infers the number of
people or activity of a person from the observation of a blank wall in an
unknown room. Our technique analyzes complex imperceptible changes in indirect
illumination in a video of the wall to reveal a signal that is correlated with
motion in the hidden part of a scene. We use this signal to classify between
zero, one, or two moving people, or the activity of a person in the hidden
scene. We train two convolutional neural networks using data collected from 20
different scenes, and achieve an accuracy of $\approx94\%$ for both tasks in
unseen test environments and real-time online settings. Unlike other passive
non-line-of-sight methods, the technique does not rely on known occluders or
controllable light sources, and generalizes to unknown rooms with no
re-calibration. We analyze the generalization and robustness of our method with
both real and synthetic data, and study the effect of the scene parameters on
the signal quality.
- Abstract(参考訳): 未知の部屋の空き壁の観測から人の人数や活動量を推定する受動的非視線法を提案する。
本手法は,壁面の映像における間接照明の複雑な非知覚的変化を分析し,シーンの隠れた部分における動きと相関する信号を明らかにする。
この信号を使って、0人、1人、または2人、または隠れたシーンにいる人の活動の分類を行う。
20の異なるシーンから収集されたデータを用いて2つの畳み込みニューラルネットワークをトレーニングし、目に見えないテスト環境とリアルタイムオンライン設定の両方のタスクに対して$\approx94\%の精度を達成する。
他の受動的非視線法とは異なり、この手法は既知のオクルーダーや制御可能な光源に依存しず、再校正のない未知の部屋に一般化する。
実データと合成データの両方を用いて,本手法の一般化とロバスト性を解析し,シーンパラメータが信号品質に与える影響について検討する。
関連論文リスト
- How Video Meetings Change Your Expression [29.898716559065672]
人のビデオが2つあるとすると、各セットに特有の時間的パターンを自動的に見つけ出そうとする。
我々は、生成ドメイン翻訳のレンズを通してこの問題に取り組む。
本稿では,F2F(F2F)とVC(Voice-calls)の対話行動の違いを,本手法が検出できることを実証する。
論文 参考訳(メタデータ) (2024-06-03T03:15:02Z) - Self-Supervised Feature Learning for Long-Term Metric Visual
Localization [16.987148593917905]
本稿では,メトリクスの視覚的ローカライゼーションのための新しい自己教師型特徴学習フレームワークを提案する。
提案手法は, 画像照合アルゴリズムを用いて, 基底構造ラベルを使わずに画像対応を生成する。
次に、画像ペアをサンプリングして、深層ニューラルネットワークをトレーニングし、関連する記述子とスコアのスパースな特徴を学習する。
論文 参考訳(メタデータ) (2022-11-30T21:15:05Z) - Online Deep Clustering with Video Track Consistency [85.8868194550978]
ビデオオブジェクトトラックから視覚的特徴を学習するための教師なしクラスタリングに基づく手法を提案する。
教師なしのクラス非依存でノイズの多いトラックジェネレータを利用すれば、コストと正確なトラックアノテーションに依存するよりも精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-07T08:11:00Z) - Visual-Tactile Multimodality for Following Deformable Linear Objects
Using Reinforcement Learning [15.758583731036007]
本稿では,視覚と触覚入力を併用して変形可能な線形物体を追従するタスクを完遂する問題について検討する。
我々は,異なる感覚モーダルを用いた強化学習エージェントを作成し,その動作をどのように促進するかを検討する。
実験の結果,視覚入力と触覚入力の両方を使用することで,最大92%の症例で作業が完了することがわかった。
論文 参考訳(メタデータ) (2022-03-31T21:59:08Z) - Robots Autonomously Detecting People: A Multimodal Deep Contrastive
Learning Method Robust to Intraclass Variations [6.798578739481274]
本稿では,クラス内変動下での人検出の移動ロボット問題に対処する,新しいマルチモーダル人検出アーキテクチャを提案する。
本稿では,1)時間不変なマルチモーダルコントラスト学習(TimCLR)と,2)MFRCNN(Multimal Faster R-CNN)検出器を用いた2段階学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-01T02:36:17Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - Data Augmentation for Object Detection via Differentiable Neural
Rendering [71.00447761415388]
注釈付きデータが乏しい場合、堅牢なオブジェクト検出器を訓練することは困難です。
この問題に対処する既存のアプローチには、ラベル付きデータからラベル付きデータを補間する半教師付き学習が含まれる。
オブジェクト検出のためのオフラインデータ拡張手法を導入し、新しいビューでトレーニングデータを意味的に補間する。
論文 参考訳(メタデータ) (2021-03-04T06:31:06Z) - STaR: Self-supervised Tracking and Reconstruction of Rigid Objects in
Motion with Neural Rendering [9.600908665766465]
本稿では,マルチビューRGB動画のリジッドモーションによる動的シーンの自己監視追跡と再構成を,手動アノテーションなしで行う新しい手法であるSTaRについて述べる。
本手法は,空間軸と時間軸の両方で新規性を測定するフォトリアリスティック・ノベルビューを描画できることを示した。
論文 参考訳(メタデータ) (2020-12-22T23:45:28Z) - A Flow Base Bi-path Network for Cross-scene Video Crowd Understanding in
Aerial View [93.23947591795897]
本稿では,これらの課題に対処し,ドローンから収集した視覚的データから参加者を自動的に理解する。
クロスシーンテストで発生する背景雑音を軽減するために, 二重ストリーム群カウントモデルを提案する。
極暗環境下での集団密度推定問題に対処するために,ゲームグランドセフトオートV(GTAV)によって生成された合成データを導入する。
論文 参考訳(メタデータ) (2020-09-29T01:48:24Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。