論文の概要: EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions?
- arxiv url: http://arxiv.org/abs/2405.17719v2
- Date: Mon, 3 Jun 2024 07:29:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 13:59:47.259219
- Title: EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions?
- Title(参考訳): EgoNCE++: Egocentric Video-Language Modelsは手動オブジェクトのインタラクションを本当に理解しているか?
- Authors: Boshen Xu, Ziheng Wang, Yang Du, Zhinan Song, Sipeng Zheng, Qin Jin,
- Abstract要約: 我々は、EgoNCE++という新しい非対称なコントラスト対象をEgoHOIに導入する。
実験の結果,EgoNCE++はオープン語彙HOI認識,マルチインスタンス検索,アクション認識タスクを著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 48.702973928321946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Egocentric video-language pretraining is a crucial paradigm to advance the learning of egocentric hand-object interactions (EgoHOI). Despite the great success on existing testbeds, these benchmarks focus more on closed-set visual concepts or limited scenarios. Due to the occurrence of diverse EgoHOIs in the real world, we propose an open-vocabulary benchmark named EgoHOIBench to reveal the diminished performance of current egocentric video-language models (EgoVLM) on fined-grained concepts, indicating that these models still lack a full spectrum of egocentric understanding. We attribute this performance gap to insufficient fine-grained supervision and strong bias towards understanding objects rather than temporal dynamics in current methods. To tackle these issues, we introduce a novel asymmetric contrastive objective for EgoHOI named EgoNCE++. For video-to-text loss, we enhance text supervision through the generation of negative captions by leveraging the in-context learning of large language models to perform HOI-related word substitution. For text-to-video loss, we propose an object-centric positive video sampling strategy that aggregates video representations by the same nouns. Our extensive experiments demonstrate that EgoNCE++ significantly boosts open-vocabulary HOI recognition, multi-instance retrieval, and action recognition tasks across various egocentric models, with improvements of up to +26.55%. Our code is available at https://github.com/xuboshen/EgoNCEpp.
- Abstract(参考訳): エゴセントリック・ビデオ言語事前学習は、エゴセントリック・ハンドオブジェクト・インタラクション(EgoHOI)の学習を促進する重要なパラダイムである。
既存のテストベッドで大きな成功を収めたにもかかわらず、これらのベンチマークはクローズドセットのビジュアルコンセプトや限られたシナリオに重点を置いている。
実世界における多様なEgoHOIの出現により,エゴ中心型ビデオ言語モデル(EgoVLM)の細粒度概念における性能の低下を明らかにするために,EgoHOIBenchというオープン語彙ベンチマークを提案する。
この性能ギャップは、現在の手法における時間的ダイナミクスよりも、オブジェクトの理解に強い偏見ときめ細かな監督が不十分なためである。
これらの問題に対処するために,EgoNCE++ という新しい非対称のコントラスト目的を導入した。
ビデオ・トゥ・テキスト・ロスでは,大言語モデルのテキスト内学習を活用し,HOI関連の単語置換を行うことにより,否定的なキャプションを生成することによってテキストの監督を強化する。
テキストとビデオの損失に対して、同じ名詞でビデオ表現を集約するオブジェクト中心のポジティブなビデオサンプリング戦略を提案する。
我々の広範な実験により、EgoNCE++は、オープン語彙HOI認識、マルチインスタンス検索、および様々なエゴセントリックモデルにおけるアクション認識タスクを大幅に向上し、最大+26.55%の改善が示されている。
私たちのコードはhttps://github.com/xuboshen/EgoNCEpp.comから入手可能です。
関連論文リスト
- HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model [9.762722976833581]
現在のモデルは、ビデオと言語間のインスタンスレベルのアライメントに大きく依存している。
我々は、人間の知覚からインスピレーションを得て、エゴビデオ表現のための構成的アプローチを探求する。
論文 参考訳(メタデータ) (2024-06-01T05:41:12Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Verbs in Action: Improving verb understanding in video-language models [128.87443209118726]
CLIPに基づく最先端のビデオ言語モデルは、動詞の理解が限られていることが示されている。
我々は,CLIPに基づくビデオ言語モデルの動詞理解を改善するために,新しいVerb-Focused Contrastiveフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:57:01Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z) - Learning to Recognize Actions on Objects in Egocentric Video with
Attention Dictionaries [51.48859591280838]
ビデオアクション認識のためのディープニューラルアーキテクチャであるEgoACOを紹介する。
フレームレベルの機能からアクションコンテキストオブジェクト記述子をプールする。
Capは学習可能な重みの辞書を使って、最も関連性の高い特徴領域からプールする。
論文 参考訳(メタデータ) (2021-02-16T10:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。