論文の概要: Intention Action Anticipation Model with Guide-Feedback Loop Mechanism
- arxiv url: http://arxiv.org/abs/2403.12450v1
- Date: Tue, 19 Mar 2024 05:21:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 15:12:20.586568
- Title: Intention Action Anticipation Model with Guide-Feedback Loop Mechanism
- Title(参考訳): ガイドフィードバックループ機構を用いた意図行動予測モデル
- Authors: Zongnan Ma, Fuchun Zhang, Zhixiong Nan, Yao Ge,
- Abstract要約: ビデオから人間の意図を予測するには、自動運転、ロボットアシスト技術、仮想現実などの幅広い応用がある。
本研究では,人間の意図を示す行動を推定するために,エゴセントリックなビデオシーケンスを用いた意図的行動予測の問題に対処する。
- 参考スコア(独自算出の注目度): 3.6651023698412017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anticipating human intention from videos has broad applications, such as automatic driving, robot assistive technology, and virtual reality. This study addresses the problem of intention action anticipation using egocentric video sequences to estimate actions that indicate human intention. We propose a Hierarchical Complete-Recent (HCR) information fusion model that makes full use of the features of the entire video sequence (i.e., complete features) and the features of the video tail sequence (i.e., recent features). The HCR model has two primary mechanisms. The Guide-Feedback Loop (GFL) mechanism is proposed to model the relation between one recent feature and one complete feature. Based on GFL, the MultiComplete-Recent Feature Aggregation (MCRFA) module is proposed to model the relation of one recent feature with multiscale complete features. Based on GFL and MCRFA, the HCR model can hierarchically explore the rich interrelationships between multiscale complete features and multiscale recent features. Through comparative and ablation experiments, we validate the effectiveness of our model on two well-known public datasets: EPIC-Kitchens and EGTEA Gaze+.
- Abstract(参考訳): ビデオから人間の意図を予測するには、自動運転、ロボットアシスト技術、仮想現実などの幅広い応用がある。
本研究では,人間の意図を示す行動を推定するために,エゴセントリックなビデオシーケンスを用いた意図的行動予測の問題に対処する。
本稿では,ビデオシーケンス全体の特徴(すなわち,完全特徴)とビデオテールシーケンスの機能(すなわち,最近の特徴)をフル活用した階層的完全最新情報融合モデルを提案する。
HCRモデルには2つの主要なメカニズムがある。
Guide-Feedback Loop (GFL) メカニズムは、1つの最近の特徴と1つの完全な特徴の関係をモデル化するために提案されている。
GFLをベースとしたMCRFA(MultiComplete-Recent Feature Aggregation)モジュールは,最近の機能とマルチスケールな機能の関係をモデル化するために提案されている。
GFLとMCRFAに基づいて、HCRモデルは階層的に、マルチスケールの完全特徴とマルチスケールの最近の特徴の間のリッチな相互関係を探索することができる。
比較およびアブレーション実験を通じて、EPIC-KitchensとEGTEA Gaze+の2つのよく知られた公開データセット上で、我々のモデルの有効性を検証する。
関連論文リスト
- Multiview Random Vector Functional Link Network for Predicting DNA-Binding Proteins [0.0]
本稿では,マルチビュー学習とニューラルネットワークアーキテクチャを融合したMvRVFL(Multiview random vector functional link)ネットワークを提案する。
提案したMvRVFLモデルは、後期および初期融合の利点を組み合わせ、異なるビューをまたいだ明確な正規化パラメータを可能にする。
DBPデータセット上で提案したMvRVFLモデルの性能はベースラインモデルよりも優れており、その優れた効果を示している。
論文 参考訳(メタデータ) (2024-09-04T10:14:17Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Self-Attention Based Generative Adversarial Networks For Unsupervised
Video Summarization [78.2700757742992]
我々は、GAN(Generative Adversarial Network)をトレーニングして、代表要約を作成する人気手法を構築した。
本稿では,フレーム選択のための自己認識機構と,符号化と復号のためのLSTMを組み合わせたSUM-GAN-AEDモデルを提案する。
論文 参考訳(メタデータ) (2023-07-16T19:56:13Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - AOE-Net: Entities Interactions Modeling with Adaptive Attention
Mechanism for Temporal Action Proposals Generation [24.81870045216019]
時間的アクションプロポーザル生成(TAPG)は、未トリミングビデオにおける動作間隔のローカライズを必要とする課題である。
マルチモーダル表現ネットワーク、すなわちアクター・オブジェクト・環境相互作用ネットワーク(AOE-Net)を用いてこれらの相互作用をモデル化することを提案する。
私たちのAOE-Netは、知覚に基づくマルチモーダル表現(PMR)と境界マッチングモジュール(BMM)の2つのモジュールで構成されています。
論文 参考訳(メタデータ) (2022-10-05T21:57:25Z) - Is Cross-Attention Preferable to Self-Attention for Multi-Modal Emotion
Recognition? [36.67937514793215]
クロスモーダル・アテンションはマルチモーダル核融合の有効なメカニズムであると考えられている。
クロスアテンションモデルと自己アテンションモデルを実装し,比較する。
7クラス感情分類タスクにおいて,異なるモードの組み合わせを用いたモデルの比較を行った。
論文 参考訳(メタデータ) (2022-02-18T15:44:14Z) - AutoDis: Automatic Discretization for Embedding Numerical Features in
CTR Prediction [45.69943728028556]
高度な機能相互作用の学習は、レコメンデータシステムにおけるClick-Through Rate(CTR)予測に不可欠である。
様々な深いCTRモデルは、埋め込みとフィーチャーインタラクションのパラダイムに従います。
数値フィールドの特徴を自動的に識別し、エンドツーエンドでCTRモデルに最適化するフレームワークであるAutoDisを提案します。
論文 参考訳(メタデータ) (2020-12-16T14:31:31Z) - Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。
本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文 参考訳(メタデータ) (2020-03-27T03:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。