論文の概要: Hand-Priming in Object Localization for Assistive Egocentric Vision
- arxiv url: http://arxiv.org/abs/2002.12557v1
- Date: Fri, 28 Feb 2020 05:32:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 02:40:05.827895
- Title: Hand-Priming in Object Localization for Assistive Egocentric Vision
- Title(参考訳): 自己中心視支援のための物体定位におけるハンドプリミング
- Authors: Kyungjun Lee, Abhinav Shrivastava, Hernisa Kacorri
- Abstract要約: エゴセントリックなビジョンは、視覚情報へのアクセスを増やし、視覚障害者の生活の質を向上させるための大きな約束を持っています。
対象物の中心領域を予備化するための文脈情報として手の存在を利用するローカライゼーションモデルを提案する。
視覚障害者や視覚障害者の自我中心のデータセットを用いて、手作りが他の手法よりも精度が高いことを示す。
- 参考スコア(独自算出の注目度): 45.38703542455732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric vision holds great promises for increasing access to visual
information and improving the quality of life for people with visual
impairments, with object recognition being one of the daily challenges for this
population. While we strive to improve recognition performance, it remains
difficult to identify which object is of interest to the user; the object may
not even be included in the frame due to challenges in camera aiming without
visual feedback. Also, gaze information, commonly used to infer the area of
interest in egocentric vision, is often not dependable. However, blind users
often tend to include their hand either interacting with the object that they
wish to recognize or simply placing it in proximity for better camera aiming.
We propose localization models that leverage the presence of the hand as the
contextual information for priming the center area of the object of interest.
In our approach, hand segmentation is fed to either the entire localization
network or its last convolutional layers. Using egocentric datasets from
sighted and blind individuals, we show that the hand-priming achieves higher
precision than other approaches, such as fine-tuning, multi-class, and
multi-task learning, which also encode hand-object interactions in
localization.
- Abstract(参考訳): エゴセントリックなビジョンは、視覚情報へのアクセスを増やし、視覚障害者の生活の質を向上させるという大きな約束を持っている。
認識性能の向上に努めているが,視覚的フィードバックを伴わないカメラの課題のため,対象物はフレームに含まれない場合があるため,ユーザにとってどの対象が関心を持つかを特定することは依然として困難である。
また、自我中心視の関心領域を推測するために一般的に用いられる視線情報は、しばしば信頼できない。
しかし、視覚障害者は、認識したい物体と相互作用するか、カメラを狙うために近接させるかのどちらかを手に入れる傾向がある。
対象物の中心領域をプライミングするための文脈情報として,手の存在を利用する局所化モデルを提案する。
提案手法では,ハンドセグメンテーションは局所化ネットワーク全体または最終畳み込み層に供給される。
視覚障害者と視覚障害者の自己中心型データセットを用いて,手-対象間インタラクションを局所的にエンコードするファインチューニング,マルチクラス,マルチタスク学習など,他のアプローチよりも高い精度を実現することを示す。
関連論文リスト
- Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects [89.95728475983263]
ロボティクス、AR/VR、アクション認識、モーション生成といったタスクにおいて、自己中心的な視点からこのようなインタラクションを理解することが重要である。
我々は、AmblyHandsとARCTICデータセットに基づいたHANDS23チャレンジを、慎重に設計されたトレーニングとテストの分割に基づいて設計する。
提案手法の結果と近年のリーダーボードのベースラインに基づいて,3Dハンド(オブジェクト)再構成タスクの徹底的な解析を行う。
論文 参考訳(メタデータ) (2024-03-25T05:12:21Z) - InterTracker: Discovering and Tracking General Objects Interacting with
Hands in the Wild [40.489171608114574]
既存の方法は相互作用する物体を見つけるためにフレームベースの検出器に依存している。
本稿では,対話オブジェクトの追跡に手動オブジェクトのインタラクションを活用することを提案する。
提案手法は最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-06T09:09:17Z) - Spotlight Attention: Robust Object-Centric Learning With a Spatial
Locality Prior [88.9319150230121]
オブジェクト中心のビジョンは、シーン内のオブジェクトの明示的な表現を構築することを目的としています。
我々は、空間的局所性を最先端のオブジェクト中心視覚モデルに組み込む。
合成および実世界の両方のデータセットにおけるセグメンテーションオブジェクトの大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-05-31T04:35:50Z) - Bi-directional Object-context Prioritization Learning for Saliency
Ranking [60.62461793691836]
既存のアプローチは、オブジェクトオブジェクトかオブジェクトシーンの関係を学ぶことに集中しています。
我々は,人間の視覚認識システムにおいて,空間的注意と物体に基づく注意が同時に機能することが観察された。
本稿では,空間的注意を統一する新たな双方向手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:03Z) - Human Hands as Probes for Interactive Object Understanding [8.330625683887957]
人間の手の動きと、関連するデータと必要な監視の両方を提供する方法の観察を実証する。
EPIC-KITCHENSデータセットにこれらの基本原理を適用し、状態に敏感な特徴をうまく学習する。
論文 参考訳(メタデータ) (2021-12-16T18:58:03Z) - Recurrent Attention Models with Object-centric Capsule Representation
for Multi-object Recognition [4.143091738981101]
反復的な注目を伴うエンコーダ・デコーダモデルにおけるオブジェクト中心の隠れ表現は、注意と認識の効果的な統合をもたらすことを示す。
我々の研究は、再帰的なオブジェクト中心表現を注意を向ける計画に組み込むための一般的なアーキテクチャへの一歩を踏み出した。
論文 参考訳(メタデータ) (2021-10-11T01:41:21Z) - Weakly Supervised Human-Object Interaction Detection in Video via
Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。
文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。
ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文 参考訳(メタデータ) (2021-10-07T15:30:18Z) - Capturing the objects of vision with neural networks [0.0]
人間の視覚知覚はその物理的関節でシーンを彫り、世界をオブジェクトに分解する。
対照的に、視覚物体認識のディープニューラルネットワーク(DNN)モデルは、主に感覚入力と結びついている。
両分野の関連研究をレビューし、これらの分野が相互にどのように役立つかを検討する。
論文 参考訳(メタデータ) (2021-09-07T21:49:53Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。