論文の概要: In the Eye of Transformer: Global-Local Correlation for Egocentric Gaze Estimation
- arxiv url: http://arxiv.org/abs/2208.04464v3
- Date: Wed, 16 Oct 2024 00:47:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:38:56.221992
- Title: In the Eye of Transformer: Global-Local Correlation for Egocentric Gaze Estimation
- Title(参考訳): 変圧器の視線:エゴセントリックな視線推定のための大域的局所相関
- Authors: Bolin Lai, Miao Liu, Fiona Ryan, James M. Rehg,
- Abstract要約: エゴセントリックな視線推定の問題に対処する最初のトランスフォーマーベースモデルを提案する。
本稿では,グローバルトークンと各ローカルトークンの相関関係を明示的にモデル化する新しいGLCモジュールを提案する。
我々のアプローチは過去の最先端をはるかに上回っている。
- 参考スコア(独自算出の注目度): 20.64639587018826
- License:
- Abstract: In this paper, we present the first transformer-based model to address the challenging problem of egocentric gaze estimation. We observe that the connection between the global scene context and local visual information is vital for localizing the gaze fixation from egocentric video frames. To this end, we design the transformer encoder to embed the global context as one additional visual token and further propose a novel Global-Local Correlation (GLC) module to explicitly model the correlation of the global token and each local token. We validate our model on two egocentric video datasets - EGTEA Gaze+ and Ego4D. Our detailed ablation studies demonstrate the benefits of our method. In addition, our approach exceeds previous state-of-the-arts by a large margin. We also provide additional visualizations to support our claim that global-local correlation serves a key representation for predicting gaze fixation from egocentric videos. More details can be found in our website (https://bolinlai.github.io/GLC-EgoGazeEst).
- Abstract(参考訳): 本稿では,自己中心型視線推定の課題に対処するトランスフォーマーモデルを提案する。
我々は,グローバルなシーンコンテキストと局所的な視覚情報との接続が,エゴセントリックなビデオフレームからの視線固定の局所化に不可欠であることを観察した。
この目的のために,グローバルコンテクストを1つのビジュアルトークンとして組み込むトランスフォーマーエンコーダを設計し,グローバルトークンと各ローカルトークンの相関を明示的にモデル化する新しいグローバルローカル相関(GLC)モジュールを提案する。
我々は,EGTEA Gaze+とEgo4Dという,エゴセントリックな2つのビデオデータセット上でモデルを検証した。
詳細なアブレーション研究は,本手法の利点を実証するものである。
さらに、我々のアプローチは過去の最先端をはるかに上回っている。
また,エゴセントリックなビデオから視線固定を予測するための重要な指標として,グローバルな局所的相関が重要であるという主張を支援するための可視化も提供する。
詳細は私たちのWebサイト(https://bolinlai.github.io/GLC-EgoGazeEst)で確認できます。
関連論文リスト
- Less is More: on the Over-Globalizing Problem in Graph Transformers [34.52455014631614]
グローバルアテンション機構は、完全に連結されたグラフにおいてより広い受容場を考慮し、多くの人が有用な情報を全てのノードから抽出できると考えている。
現在の注意機構は,これらの遠隔ノードに過度に焦点を絞っているのに対して,その近辺ノードは実際には有用な情報の大半を包含しているため,比較的弱体化している。
本稿では,コラボレーティブ・トレーニング(CoBFormer)を用いたバイレベル・グローバルグラフ変換器を提案する。
論文 参考訳(メタデータ) (2024-05-02T09:12:22Z) - X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization [56.75782714530429]
我々はX-MICと呼ぶクロスモーダル適応フレームワークを提案する。
私たちのパイプラインは、凍結したテキストの埋め込みを、共有された埋め込み空間内で、それぞれのエゴセントリックなビデオにアライメントすることを学びました。
これにより、各エゴセントリックビデオへのテキスト埋め込みのアライメントが向上し、データセットの一般化が大幅に向上する。
論文 参考訳(メタデータ) (2024-03-28T19:45:35Z) - Hybrid Focal and Full-Range Attention Based Graph Transformers [0.0]
本稿では,Focal と Full-Range Graph Transformer (FFGT) という,純粋に注目に基づくアーキテクチャを提案する。
FFGTは、従来のフルレンジアテンションとエゴネットへのKホップアテンションを組み合わせることで、グローバル情報とローカル情報の両方を集約する。
提案手法は,各種オープンデータセット上での既存のグラフ変換器の性能を向上させる。
論文 参考訳(メタデータ) (2023-11-08T12:53:07Z) - Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - Enhancing Transformer Backbone for Egocentric Video Action Segmentation [5.104181562775778]
本稿では,アクションセグメンテーションのための最先端トランスフォーマを強化するための2つの新しいアイデアを提案する。
本稿では,局所的・グローバル的・局所的両方の文脈における階層的表現を適応的に捉えるための,二重拡張型アテンション機構を提案する。
また、最先端のビジュアル言語表現学習技術を用いて、トランスフォーマーのよりリッチでコンパクトな特徴を抽出する。
論文 参考訳(メタデータ) (2023-05-19T01:00:08Z) - Mutual Guidance and Residual Integration for Image Enhancement [43.282397174228116]
本稿では,効果的な双方向グローバルローカル情報交換を行うための相互誘導ネットワーク(MGN)を提案する。
本設計では,グローバルな関係のモデリングに重点を置き,一方がローカルな情報処理にコミットする2ブランチのフレームワークを採用する。
その結果、グローバルとローカルの両方のブランチは、相互情報集約のメリットを享受できる。
論文 参考訳(メタデータ) (2022-11-25T06:12:39Z) - Coalescing Global and Local Information for Procedural Text
Understanding [70.10291759879887]
完全な手続き的理解ソリューションは、入力のローカル・グローバル・ビューとアウトプットのグローバル・ビューの3つの中核的な側面を組み合わせるべきである。
本稿では,エンティティと時間表現を構築する新しいモデルであるCoalescing Global and Local InformationCGを提案する。
一般的な手続き的テキスト理解データセットの実験は、我々のモデルが最先端の結果を得ることを示す。
論文 参考訳(メタデータ) (2022-08-26T19:16:32Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Watching You: Global-guided Reciprocal Learning for Video-based Person
Re-identification [82.6971648465279]
映像に基づくRe-IDのための新しいグローバルガイド相互学習フレームワークを提案する。
我々のアプローチは他の最先端のアプローチよりも優れたパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2021-03-07T12:27:42Z) - An Explicit Local and Global Representation Disentanglement Framework
with Applications in Deep Clustering and Unsupervised Object Detection [9.609936822226633]
我々はSPLITと呼ばれるフレームワークを提案し、ローカルおよびグローバルな情報を解き放つことができる。
我々のフレームワークは、可変オートエンコーダ(VAE)フレームワークに生成仮定を追加する。
このフレームワークは,これらのモデル内の局所的およびグローバル的情報を効果的に切り離すことができることを示す。
論文 参考訳(メタデータ) (2020-01-24T12:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。