論文の概要: I-MPN: Inductive Message Passing Network for Effective and Efficient Human-in-the-Loop Annotation of Mobile Eye Tracking Data
- arxiv url: http://arxiv.org/abs/2406.06239v1
- Date: Mon, 10 Jun 2024 13:08:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 13:58:00.144408
- Title: I-MPN: Inductive Message Passing Network for Effective and Efficient Human-in-the-Loop Annotation of Mobile Eye Tracking Data
- Title(参考訳): I-MPN:モバイルアイトラッキングデータの効果的かつ効率的なヒューマン・イン・ザ・ループアノテーションのためのインダクティブメッセージパッシングネットワーク
- Authors: Hoang H. Le, Duy M. H. Nguyen, Omair Shahzad Bhatti, Laszlo Kopacsi, Thinh P. Ngo, Binh T. Nguyen, Michael Barz, Daniel Sonntag,
- Abstract要約: 本稿では,移動眼球追跡設定における物体の自動認識のための新しい人間中心学習アルゴリズムを提案する。
提案手法は,ノードプロファイル情報や位置などのノード特徴を利用する誘導型メッセージパッシングネットワーク技術(I-MPN)とオブジェクト検出器をシームレスに統合する。
- 参考スコア(独自算出の注目度): 4.487146086221174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding human visual processing in dynamic environments is essential for psychology and human-centered interaction design. Mobile eye-tracking systems, combining egocentric video and gaze signals, offer valuable insights. However, manual analysis of these recordings is time-intensive. In this work, we present a novel human-centered learning algorithm designed for automated object recognition within mobile eye-tracking settings. Our approach seamlessly integrates an object detector with an inductive message-passing network technique (I-MPN), harnessing node features such as node profile information and positions. This integration enables our algorithm to learn embedding functions capable of generalizing to new object angle views, thereby facilitating rapid adaptation and efficient reasoning in dynamic contexts as users navigate through their environment. Through experiments conducted on three distinct video sequences, our \textit{interactive-based method} showcases significant performance improvements over fixed training/testing algorithms, even when trained on considerably smaller annotated samples collected through user feedback. Furthermore, we showcase exceptional efficiency in data annotation processes, surpassing approaches that use complete object detectors, combine detectors with convolutional networks, or employ interactive video segmentation.
- Abstract(参考訳): 動的環境における人間の視覚的処理を理解することは、心理学と人間中心の相互作用設計に不可欠である。
エゴ中心のビデオと視線信号を組み合わせたモバイルアイトラッキングシステムは、貴重な洞察を提供する。
しかし、これらの記録を手動で分析することは時間集約的である。
本研究では,移動眼球追跡設定における物体の自動認識のための新しい人中心学習アルゴリズムを提案する。
提案手法は,ノードプロファイル情報や位置などのノード特徴を利用する誘導型メッセージパッシングネットワーク技術(I-MPN)とオブジェクト検出器をシームレスに統合する。
この統合により,新しいオブジェクトアングルビューに一般化可能な埋め込み関数の学習が可能となり,ユーザが環境をナビゲートする際の動的コンテキストの迅速な適応と効率的な推論が容易になる。
3つの異なるビデオシーケンスで行った実験を通じて,ユーザのフィードバックによって収集されたより小さな注釈付きサンプルをトレーニングした場合においても,固定トレーニング/テストアルゴリズムよりも大幅に性能が向上することを示した。
さらに、データアノテーションプロセスにおいて例外的な効率性を示し、完全なオブジェクト検出器を使用するアプローチを超越し、検出器を畳み込みネットワークと組み合わせたり、インタラクティブなビデオセグメンテーションを利用する。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Towards Zero-shot Human-Object Interaction Detection via Vision-Language
Integration [14.678931157058363]
本稿では,ゼロショットHOI検出を改善するために,視覚言語モデルの知識を効果的に統合する新しいフレームワーク「KI2HOI」を提案する。
より包括的な視覚表現を生成するための効果的な付加的自己認識機構を開発する。
我々のモデルは、様々なゼロショットおよびフル教師付き設定において、以前の手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-12T02:07:23Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - Spatial Parsing and Dynamic Temporal Pooling networks for Human-Object
Interaction detection [30.896749712316222]
本稿では,空間的パーシングと動的テンポリング(SPDTP)ネットワークについて紹介する。
我々はCAD-120およびSome-Elseデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-07T07:26:06Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - Weakly Supervised Human-Object Interaction Detection in Video via
Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。
文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。
ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文 参考訳(メタデータ) (2021-10-07T15:30:18Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。