論文の概要: Domain Generalization using Action Sequences for Egocentric Action Recognition
- arxiv url: http://arxiv.org/abs/2506.17685v1
- Date: Sat, 21 Jun 2025 11:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.539822
- Title: Domain Generalization using Action Sequences for Egocentric Action Recognition
- Title(参考訳): エゴセントリックな行動認識のためのアクションシーケンスを用いたドメインの一般化
- Authors: Amirshayan Nasirimajd, Chiara Plizzari, Simone Alberto Peirone, Marco Ciccone, Giuseppe Averta, Barbara Caputo,
- Abstract要約: エゴセントリックな視覚は、観察者が着用するカメラによって特徴づけられ、照明、視点、環境の様々な変化を捉えている。
本稿では,エゴセントリック行動認識のための領域一般化手法を提案する。
アクションシーケンスを活用することで、目に見えない環境にまたがるモデルの一般化能力を高めることを目指している。
- 参考スコア(独自算出の注目度): 22.373604443667134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognizing human activities from visual inputs, particularly through a first-person viewpoint, is essential for enabling robots to replicate human behavior. Egocentric vision, characterized by cameras worn by observers, captures diverse changes in illumination, viewpoint, and environment. This variability leads to a notable drop in the performance of Egocentric Action Recognition models when tested in environments not seen during training. In this paper, we tackle these challenges by proposing a domain generalization approach for Egocentric Action Recognition. Our insight is that action sequences often reflect consistent user intent across visual domains. By leveraging action sequences, we aim to enhance the model's generalization ability across unseen environments. Our proposed method, named SeqDG, introduces a visual-text sequence reconstruction objective (SeqRec) that uses contextual cues from both text and visual inputs to reconstruct the central action of the sequence. Additionally, we enhance the model's robustness by training it on mixed sequences of actions from different domains (SeqMix). We validate SeqDG on the EGTEA and EPIC-KITCHENS-100 datasets. Results on EPIC-KITCHENS-100, show that SeqDG leads to +2.4% relative average improvement in cross-domain action recognition in unseen environments, and on EGTEA the model achieved +0.6% Top-1 accuracy over SOTA in intra-domain action recognition.
- Abstract(参考訳): 視覚的なインプットから人間活動を認識することは、ロボットが人間の行動を再現できるためには不可欠である。
エゴセントリックな視覚は、観察者が着用するカメラによって特徴づけられ、照明、視点、環境の様々な変化を捉えている。
この可変性は、トレーニング中に見えない環境でテストした場合、エゴセントリックなアクション認識モデルのパフォーマンスが顕著に低下する。
本稿では,エゴセントリックな行動認識のための領域一般化手法を提案することで,これらの課題に対処する。
私たちの洞察では、アクションシーケンスは視覚領域間で一貫したユーザー意図を反映することが多い。
アクションシーケンスを活用することで、目に見えない環境にまたがるモデルの一般化能力を高めることを目指している。
提案手法はSeqDG (SeqDG) と名付けられ, テキストと視覚の両方からの文脈的手がかりを用いてシーケンスの中心的な動作を再構築する視覚テキストシーケンス再構築目的 (SeqRec) を提案する。
さらに、異なるドメイン(SeqMix)からのアクションの混合シーケンスに基づいてモデルをトレーニングすることで、モデルの堅牢性を高める。
EGTEAおよびEPIC-KITCHENS-100データセット上でSeqDGを検証する。
EPIC-KITCHENS-100の結果、SeqDGは、見えない環境でのクロスドメインアクション認識における平均2.4%の相対的な改善をもたらし、EGTEAでは、ドメイン内のアクション認識においてSOTAよりも0.6%のTop-1精度を達成した。
関連論文リスト
- Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments [10.953629652228024]
VLN(Vision-and-Language Navigation)エージェントは、時系列の視覚観察とそれに対応する指示を関連付け、意思決定を行う。
本稿では,人間中心の指示と低地視野の四足歩行ロボットとのミスマッチに対処する。
この問題を軽減するために,地上レベルの視点ナビゲーション(GVNav)手法を提案する。
論文 参考訳(メタデータ) (2025-02-26T10:30:40Z) - Intrinsic Dynamics-Driven Generalizable Scene Representations for Vision-Oriented Decision-Making Applications [0.21051221444478305]
シーン表現の能力をいかに向上させるかは、ビジョン指向の意思決定アプリケーションにおいて重要な問題である。
視覚強化学習におけるシーケンスモデルを用いた固有ダイナミクス駆動表現学習法を提案する。
論文 参考訳(メタデータ) (2024-05-30T06:31:03Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Object-based (yet Class-agnostic) Video Domain Adaptation [78.34712426922519]
我々はODAPT(Object-based (yet Class-Agnostic) Video Domain Adaptation)を提案する。
ODAPTは、既存のアクション認識システムを新しいドメインに適応するための、シンプルで効果的なフレームワークである。
我々のモデルは、Epic-Kitchensのキッチン間で適応する場合の+6.5の増加と、Epic-KitchensとEGTEAデータセット間の適応率の+3.1の増加を実現している。
論文 参考訳(メタデータ) (2023-11-29T01:17:38Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - Discovering Generalizable Spatial Goal Representations via Graph-based
Active Reward Learning [17.58129740811116]
我々は、報酬学習アプローチ、グラフベースの等価マッピング(GEM)を提案する。
GEMは、オブジェクト間の重要な空間関係を示すグラフと、グラフの各エッジに対する状態同値写像による空間目標仕様を表す。
GEMは,学習目標表現の高次ベースラインに対する一般化性を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-11-24T18:59:06Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。