論文の概要: HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model
- arxiv url: http://arxiv.org/abs/2406.00307v1
- Date: Sat, 1 Jun 2024 05:41:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 07:44:24.583710
- Title: HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model
- Title(参考訳): HENASY:Egocentric Video-Language Modelのためのシーンエンティティの集合学習
- Authors: Khoa Vo, Thinh Phan, Kashu Yamazaki, Minh Tran, Ngan Le,
- Abstract要約: HENASY (Hierarchical ENtities ASsemblY) は、エゴセントリックなビデオ分析用に設計された新しいフレームワークである。
ビデオパッチから動的エンティティを組み立て、拡張スロットアテンションとグループ化機構を使用して構成的なアプローチを採用する。
革新的な対照的な損失を取り入れることで、HENASYはエンティティとアクティビティの認識を大幅に改善し、Ego4DやEpicKitchenなどのベンチマークで優れたパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 9.762722976833581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-Language Models (VLMs), pre-trained on large-scale video-caption datasets, are now standard for robust visual-language representation and downstream tasks. However, their reliance on global contrastive alignment limits their ability to capture fine-grained interactions between visual and textual elements. To address these challenges, we introduce HENASY (Hierarchical ENtities ASsemblY), a novel framework designed for egocentric video analysis that enhances the granularity of video content representations. HENASY employs a compositional approach using an enhanced slot-attention and grouping mechanisms for videos, assembling dynamic entities from video patches. It integrates a local entity encoder for dynamic modeling, a global encoder for broader contextual understanding, and an entity-aware decoder for late-stage fusion, enabling effective video scene dynamics modeling and granular-level alignment between visual entities and text. By incorporating innovative contrastive losses, HENASY significantly improves entity and activity recognition, delivering superior performance on benchmarks such as Ego4D and EpicKitchen, and setting new standards in both zero-shot and extensive video understanding tasks. Our results confirm groundbreaking capabilities of HENASY and establish it as a significant advancement in video-language multimodal research.
- Abstract(参考訳): 大規模なビデオキャプチャデータセットで事前トレーニングされたVLM(Video-Language Models)が、堅牢なビジュアル言語表現とダウンストリームタスクの標準になった。
しかし、グローバルコントラストアライメントへの依存は、視覚的要素とテキスト的要素の間のきめ細かい相互作用を捉える能力を制限している。
これらの課題に対処するために,ビデオコンテンツ表現の粒度を向上するエゴセントリックなビデオ分析のための新しいフレームワークであるHENASY(Hierarchical ENtities ASsemblY)を紹介する。
HENASYは、ビデオパッチから動的エンティティを組み立て、拡張スロットアテンションとグループ化機構を使用して構成的なアプローチを採用する。
ダイナミックモデリングのためのローカルエンティティエンコーダ、より広いコンテキスト理解のためのグローバルエンコーダ、後期融合のためのエンティティ認識デコーダを統合し、効果的なビデオシーンダイナミックスモデリングとビジュアルエンティティとテキスト間の粒度レベルのアライメントを可能にする。
革新的な対照的な損失を取り入れることで、HENASYはエンティティとアクティビティの認識を大幅に改善し、Ego4DやEpicKitchenのようなベンチマークで優れたパフォーマンスを提供し、ゼロショットと広範なビデオ理解タスクにおいて新しい標準を設定する。
我々は,HENASYの画期的な能力を確認し,ビデオ言語マルチモーダル研究における重要な進歩として確立した。
関連論文リスト
- Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language
Pretraining? [34.609984453754656]
本研究の目的は,意味表現や構文構造を含む包括的言語知識がマルチモーダルアライメントに与える影響を明らかにすることである。
具体的には、最初の大規模マルチモーダルアライメント探索ベンチマークであるSNAREを設計、リリースする。
論文 参考訳(メタデータ) (2023-08-24T16:17:40Z) - EC^2: Emergent Communication for Embodied Control [72.99894347257268]
エージェントはマルチモーダル・プレトレーニングを活用して、新しい環境でどのように振る舞うかを素早く学ぶ必要がある。
本稿では,数発のエンボディドコントロールのためのビデオ言語表現を事前学習するための新しいスキームであるEmergent Communication for Embodied Control (EC2)を提案する。
EC2は、タスク入力としてビデオとテキストの両方の従来のコントラスト学習手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-04-19T06:36:02Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Dilated Context Integrated Network with Cross-Modal Consensus for
Temporal Emotion Localization in Videos [128.70585652795637]
TELは、時間的行動の局所化と比較して3つのユニークな課題を提示している。
感情は時間的ダイナミクスが非常に多様である。
微粒な時間的アノテーションは複雑で、労働集約的です。
論文 参考訳(メタデータ) (2022-08-03T10:00:49Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - Towards Tokenized Human Dynamics Representation [41.75534387530019]
我々は,ビデオの時間的パターンを自己監督的に分割し,クラスタ化する方法について検討した。
我々は、ケンドールのTauによるフレームワイド表現学習ステップと、正規化された相互情報と言語エントロピーによる語彙構築ステップを評価する。
AIST++とPKU-MMDデータセットでは、アクトンはいくつかのベースラインと比較して大幅にパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2021-11-22T18:59:58Z) - Hierarchical Deep Residual Reasoning for Temporal Moment Localization [48.108468456043994]
ビデオと文を異なる意味を持つマルチレベル表現に分解する階層的深層残響推論(HDRR)モデルを提案する。
また,機能融合のための簡易かつ効果的なRes-BiGRUを設計し,自己適応的に有用な情報を把握できる。
論文 参考訳(メタデータ) (2021-10-31T07:13:34Z) - Contrastive Video-Language Segmentation [41.1635597261304]
本稿では,ビデオコンテンツ中の自然言語文によって参照される特定のオブジェクトをセグメント化する問題に焦点をあてる。
本研究では, 視覚的・言語的モダリティを, 対照的な学習目的を通した明示的な方法で解釈することを提案する。
論文 参考訳(メタデータ) (2021-09-29T01:40:58Z) - Adaptive Hierarchical Graph Reasoning with Semantic Coherence for
Video-and-Language Inference [81.50675020698662]
Video-and-Language Inferenceは、最近提案された共同ビデオ・言語理解のタスクである。
本稿では,複雑な相互作用に関する映像の深い理解を実現する適応階層型グラフネットワークを提案する。
3つの階層から適応階層型グラフネットワークのセマンティックコヒーレンスを明示的に促進するためにセマンティックコヒーレンス学習を導入する。
論文 参考訳(メタデータ) (2021-07-26T15:23:19Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。