論文の概要: Insights from Visual Cognition: Understanding Human Action Dynamics with Overall Glance and Refined Gaze Transformer
- arxiv url: http://arxiv.org/abs/2604.06783v1
- Date: Wed, 08 Apr 2026 07:52:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.409268
- Title: Insights from Visual Cognition: Understanding Human Action Dynamics with Overall Glance and Refined Gaze Transformer
- Title(参考訳): 視覚認知からの洞察:全体の視線と精細な視線変換器による人間の行動ダイナミクスの理解
- Authors: Bohao Xing, Deng Li, Rong Gao, Xin Liu, Heikki Kälviäinen,
- Abstract要約: 近年、Transformerは様々な視覚タスクにおいて大きな進歩を遂げている。
時間的・空間的な情報の重要性は時間スケールによって異なると論じる。
本稿では,Glance と Glance Gaze Transformer というデュアルパスネットワークを提案する。
- 参考スコア(独自算出の注目度): 9.235058796055139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Transformer has made significant progress in various vision tasks. To balance computation and efficiency in video tasks, recent works heavily rely on factorized or window-based self-attention. However, these approaches split spatiotemporal correlations between regions of interest in videos, limiting the models' ability to capture motion and long-range dependencies. In this paper, we argue that, similar to the human visual system, the importance of temporal and spatial information varies across different time scales, and attention is allocated sparsely over time through glance and gaze behavior. Is equal consideration of time and space crucial for success in video tasks? Motivated by this understanding, we propose a dual-path network called the Overall Glance and Refined Gaze (OG-ReG) Transformer. The Glance path extracts coarse-grained overall spatiotemporal information, while the Gaze path supplements the Glance path by providing local details. Our model achieves state-of-the-art results on the Kinetics-400, Something-Something v2, and Diving-48, demonstrating its competitive performance. The code will be available at https://github.com/linuxsino/OG-ReG.
- Abstract(参考訳): 近年、Transformerは様々な視覚タスクにおいて大きな進歩を遂げている。
ビデオタスクの計算と効率のバランスをとるために、最近の研究は因子化やウィンドウベースの自己注意に大きく依存している。
しかしながら、これらのアプローチはビデオの関心領域間の時空間的相関を分割し、モデルが動きと長距離依存をキャプチャする能力を制限する。
本稿では、人間の視覚システムと同様、時間的・空間的な情報の重要性は時間スケールによって異なり、視線・視線行動を通して、時間とともに注意が軽々しく割り当てられていることを論じる。
ビデオ作業の成功には時間と空間の平等が不可欠か?
そこで本研究では,Glance and Refined Gaze (OG-ReG) Transformerと呼ばれるデュアルパスネットワークを提案する。
ガンス・パスは粗い全体時空間情報を抽出し、ガズ・パスは局所的な詳細を提供することでガンス・パスを補完する。
我々のモデルは、Kineetics-400、Something v2、Diving-48の最先端の成果を達成し、その競争性能を実証する。
コードはhttps://github.com/linuxsino/OG-ReG.comで入手できる。
関連論文リスト
- CGTGait: Collaborative Graph and Transformer for Gait Emotion Recognition [9.539530757201206]
骨格に基づく歩行感情認識は広範に応用されているため、大きな注目を集めている。
本稿では,グラフ畳み込みと変換器を協調的に統合するフレームワークである textbfCGTGait を提案する。
Emotion-Gait と ELMD の2つの広く使われているデータセットに対して,本手法の評価を行った。
論文 参考訳(メタデータ) (2025-09-20T10:48:51Z) - TransformerG2G: Adaptive time-stepping for learning temporal graph
embeddings using transformers [2.2120851074630177]
本研究では,不確実な定量化を伴うグラフ埋め込みモデルであるTransformerG2Gを開発し,時間的グラフの時間的ダイナミクスを学習する。
提案したTransformerG2Gモデルが従来のマルチステップ法より優れていることを示す。
注意重みを調べることで、時間的依存関係を解明し、影響力のある要素を特定し、グラフ構造内の複雑な相互作用についての洞察を得ることができる。
論文 参考訳(メタデータ) (2023-07-05T18:34:22Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Coarse Temporal Attention Network (CTA-Net) for Driver's Activity
Recognition [14.07119502083967]
ドライバーの活動は、同様の身体部分の動きで同じ被験者によって実行され、微妙な変化をもたらすため、異なります。
我々のモデルはCTA-Net(Coarse Temporal Attention Network)と呼ばれ、粗い時間枝をトレーニング可能な視点で導入する。
モデルは革新的なアテンションメカニズムを使用して、アクティビティ認識のための高レベルなアクション固有のコンテキスト情報を生成する。
論文 参考訳(メタデータ) (2021-01-17T10:15:37Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - Gravitational Models Explain Shifts on Human Visual Attention [80.76475913429357]
視覚的注意(英: visual attention)とは、人間の脳が優先的な処理のために関連する感覚情報を選択する能力を指す。
過去30年間に様々な評価方法が提案されてきた。
注意変動を記述するための重力モデル(GRAV)を提案する。
論文 参考訳(メタデータ) (2020-09-15T10:12:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。