論文の概要: Learning from Observer Gaze:Zero-Shot Attention Prediction Oriented by Human-Object Interaction Recognition
- arxiv url: http://arxiv.org/abs/2405.09931v1
- Date: Thu, 16 May 2024 09:34:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 14:41:48.059812
- Title: Learning from Observer Gaze:Zero-Shot Attention Prediction Oriented by Human-Object Interaction Recognition
- Title(参考訳): オブザーバ・ゲイズからの学習:人間と物体の相互作用認識によるゼロショット注意予測
- Authors: Yuchen Zhou, Linkai Liu, Chao Gou,
- Abstract要約: まず,740種類の相互作用カテゴリの530,000個の固定点を含む,IGという新しい視線固定データセットを収集した。
次に、ゼロショットインタラクション指向の注意予測タスクZeroIAを紹介し、トレーニング中に遭遇しないインタラクションに対する視覚的手がかりを予測するモデルに挑戦する。
第3に、人間観測者の認知過程をエミュレートしてZeroIA問題に取り組むための対話型注意モデルIAを提案する。
- 参考スコア(独自算出の注目度): 13.956664101032006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing attention prediction research focuses on salient instances like humans and objects. However, the more complex interaction-oriented attention, arising from the comprehension of interactions between instances by human observers, remains largely unexplored. This is equally crucial for advancing human-machine interaction and human-centered artificial intelligence. To bridge this gap, we first collect a novel gaze fixation dataset named IG, comprising 530,000 fixation points across 740 diverse interaction categories, capturing visual attention during human observers cognitive processes of interactions. Subsequently, we introduce the zero-shot interaction-oriented attention prediction task ZeroIA, which challenges models to predict visual cues for interactions not encountered during training. Thirdly, we present the Interactive Attention model IA, designed to emulate human observers cognitive processes to tackle the ZeroIA problem. Extensive experiments demonstrate that the proposed IA outperforms other state-of-the-art approaches in both ZeroIA and fully supervised settings. Lastly, we endeavor to apply interaction-oriented attention to the interaction recognition task itself. Further experimental results demonstrate the promising potential to enhance the performance and interpretability of existing state-of-the-art HOI models by incorporating real human attention data from IG and attention labels generated by IA.
- Abstract(参考訳): 既存の注意予測研究は、人間や物体のような健全な事例に焦点を当てている。
しかしながら、人間の観察者によるインスタンス間の相互作用の理解から生じる、より複雑な相互作用指向の注意は、いまだほとんど探索されていない。
これは、人間と機械の相互作用と人間中心の人工知能を進める上でも同様に重要である。
このギャップを埋めるために、まずIGという名の新しい視線固定データセットを収集し、740の多様な相互作用カテゴリにわたる53万の固定点と、人間の観察者による相互作用の認知過程における視覚的注意を捉えた。
その後、ゼロショットインタラクション指向の注意予測タスクZeroIAを導入し、トレーニング中に遭遇しないインタラクションに対する視覚的手がかりを予測するモデルに挑戦する。
第3に、人間観測者の認知過程をエミュレートしてZeroIA問題に取り組むための対話型注意モデルIAを提案する。
大規模な実験により、提案されたIAは、ZeroIAと完全に監督された設定の両方において、他の最先端のアプローチよりも優れていることが示された。
最後に,インタラクション指向の注意をインタラクション認識タスク自体に適用する。
さらに,IGの実際の人的注意データとIAが生成した注意ラベルを組み込むことにより,既存の最先端HOIモデルの性能と解釈可能性を高める可能性を実証した。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - HODN: Disentangling Human-Object Feature for HOI Detection [51.48164941412871]
本稿では,Human and Object Disentangling Network (HODN) を提案し,Human-Object Interaction (HOI) の関係を明示的にモデル化する。
インタラクションに人間的特徴がより寄与していることを考慮し,インタラクションデコーダが人間中心の領域に焦点を当てていることを確認するためのヒューマンガイドリンク手法を提案する。
提案手法は,V-COCOとHICO-Det Linkingデータセットの競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-20T04:12:50Z) - Weakly-Supervised HOI Detection from Interaction Labels Only and
Language/Vision-Language Priors [36.75629570208193]
人-物相互作用検出(Human-object Interaction, HOI)は、人-物対とその相互作用カテゴリを、与えられた自然な画像から抽出することを目的としている。
本稿では,画像レベルのインタラクションラベルのみを用いて,文献における最も弱い監視設定によるHOI検出に取り組む。
まず,非相互作用型人間とオブジェクトの提案を駆使して,バッグ内の正の対の質を高める手法を提案する。
第2に、大きな言語モデルを使用して、人間とオブジェクトのカテゴリ間の相互作用を問合せし、モデルを強調しないよう強制する。
論文 参考訳(メタデータ) (2023-03-09T19:08:02Z) - Beyond Tracking: Using Deep Learning to Discover Novel Interactions in
Biological Swarms [3.441021278275805]
本稿では,システムレベルの状態を全体像から直接予測するディープ・ネットワーク・モデルを提案する。
結果の予測モデルは、人間の理解した予測モデルに基づいていないため、説明モジュールを使用する。
これは、行動生態学における人工知能の例である。
論文 参考訳(メタデータ) (2021-08-20T22:50:41Z) - Cost-effective Interactive Attention Learning with Neural Attention
Processes [79.8115563067513]
対話型注意学習(Interactive Attention Learning, IAL)と呼ばれる対話型学習フレームワークを提案する。
IALは、人間のアノテーションが不足しているため、過度に適合する傾向がある。
我々は,サンプル効率のよい注意機構と,コスト効率のよいインスタンスと機能の再ランクアルゴリズムを提案することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2020-06-09T17:36:41Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。