論文の概要: HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model
- arxiv url: http://arxiv.org/abs/2406.00307v2
- Date: Thu, 6 Jun 2024 06:08:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 20:03:47.894517
- Title: HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model
- Title(参考訳): HENASY:Egocentric Video-Language Modelのためのシーンエンティティの集合学習
- Authors: Khoa Vo, Thinh Phan, Kashu Yamazaki, Minh Tran, Ngan Le,
- Abstract要約: 現在のモデルは、ビデオと言語間のインスタンスレベルのアライメントに大きく依存している。
我々は、人間の知覚からインスピレーションを得て、エゴビデオ表現のための構成的アプローチを探求する。
- 参考スコア(独自算出の注目度): 9.762722976833581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current video-language models (VLMs) rely extensively on instance-level alignment between video and language modalities, which presents two major limitations: (1) visual reasoning disobeys the natural perception that humans do in first-person perspective, leading to a lack of reasoning interpretation; and (2) learning is limited in capturing inherent fine-grained relationships between two modalities. In this paper, we take an inspiration from human perception and explore a compositional approach for egocentric video representation. We introduce HENASY (Hierarchical ENtities ASsemblY), which includes a spatiotemporal token grouping mechanism to explicitly assemble dynamically evolving scene entities through time and model their relationship for video representation. By leveraging compositional structure understanding, HENASY possesses strong interpretability via visual grounding with free-form text queries. We further explore a suite of multi-grained contrastive losses to facilitate entity-centric understandings. This comprises three alignment types: video-narration, noun-entity, verb-entities alignments. Our method demonstrates strong interpretability in both quantitative and qualitative experiments; while maintaining competitive performances on five downstream tasks via zero-shot transfer or as video/text representation, including video/text retrieval, action recognition, multi-choice query, natural language query, and moments query.
- Abstract(参考訳): 現在のビデオ言語モデル(VLM)は、ビデオと言語モダリティ間のインスタンスレベルのアライメントに大きく依存しており、(1)視覚的推論は、人間が一人称視点で行う自然な認識に反し、推論の解釈の欠如を招き、(2)学習は、2つのモダリティ間の固有のきめ細かい関係を捉えるのに限られている。
本稿では、人間の知覚からインスピレーションを得て、エゴセントリックな映像表現のための構成的アプローチを探求する。
HENASY (Hierarchical ENtities ASsemblY) を導入し、時間を通して動的に進化するシーンエンティティを明示的にアレンジし、ビデオ表現とそれらの関係をモデル化する時空間トークングループ化機構を含む。
構成構造理解を活用することで、HENASYは、自由形式のテキストクエリによる視覚的グラウンドリングを通じて、強い解釈性を持つ。
さらに、エンティティ中心の理解を促進するために、多義的なコントラスト損失のスイートについても検討する。
これは、ビデオナレーション、名詞、動詞のアライメントという3つのアライメントタイプから構成される。
提案手法は,ビデオ/テキスト検索,アクション認識,マルチチョイスクエリ,自然言語クエリ,モーメントクエリを含む,ゼロショット転送やビデオ/テキスト表現による5つの下流タスクの競合性能を維持しながら,定量的および定性的な実験において高い解釈性を示す。
関連論文リスト
- Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language
Pretraining? [34.609984453754656]
本研究の目的は,意味表現や構文構造を含む包括的言語知識がマルチモーダルアライメントに与える影響を明らかにすることである。
具体的には、最初の大規模マルチモーダルアライメント探索ベンチマークであるSNAREを設計、リリースする。
論文 参考訳(メタデータ) (2023-08-24T16:17:40Z) - EC^2: Emergent Communication for Embodied Control [72.99894347257268]
エージェントはマルチモーダル・プレトレーニングを活用して、新しい環境でどのように振る舞うかを素早く学ぶ必要がある。
本稿では,数発のエンボディドコントロールのためのビデオ言語表現を事前学習するための新しいスキームであるEmergent Communication for Embodied Control (EC2)を提案する。
EC2は、タスク入力としてビデオとテキストの両方の従来のコントラスト学習手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-04-19T06:36:02Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Dilated Context Integrated Network with Cross-Modal Consensus for
Temporal Emotion Localization in Videos [128.70585652795637]
TELは、時間的行動の局所化と比較して3つのユニークな課題を提示している。
感情は時間的ダイナミクスが非常に多様である。
微粒な時間的アノテーションは複雑で、労働集約的です。
論文 参考訳(メタデータ) (2022-08-03T10:00:49Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - Towards Tokenized Human Dynamics Representation [41.75534387530019]
我々は,ビデオの時間的パターンを自己監督的に分割し,クラスタ化する方法について検討した。
我々は、ケンドールのTauによるフレームワイド表現学習ステップと、正規化された相互情報と言語エントロピーによる語彙構築ステップを評価する。
AIST++とPKU-MMDデータセットでは、アクトンはいくつかのベースラインと比較して大幅にパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2021-11-22T18:59:58Z) - Hierarchical Deep Residual Reasoning for Temporal Moment Localization [48.108468456043994]
ビデオと文を異なる意味を持つマルチレベル表現に分解する階層的深層残響推論(HDRR)モデルを提案する。
また,機能融合のための簡易かつ効果的なRes-BiGRUを設計し,自己適応的に有用な情報を把握できる。
論文 参考訳(メタデータ) (2021-10-31T07:13:34Z) - Contrastive Video-Language Segmentation [41.1635597261304]
本稿では,ビデオコンテンツ中の自然言語文によって参照される特定のオブジェクトをセグメント化する問題に焦点をあてる。
本研究では, 視覚的・言語的モダリティを, 対照的な学習目的を通した明示的な方法で解釈することを提案する。
論文 参考訳(メタデータ) (2021-09-29T01:40:58Z) - Adaptive Hierarchical Graph Reasoning with Semantic Coherence for
Video-and-Language Inference [81.50675020698662]
Video-and-Language Inferenceは、最近提案された共同ビデオ・言語理解のタスクである。
本稿では,複雑な相互作用に関する映像の深い理解を実現する適応階層型グラフネットワークを提案する。
3つの階層から適応階層型グラフネットワークのセマンティックコヒーレンスを明示的に促進するためにセマンティックコヒーレンス学習を導入する。
論文 参考訳(メタデータ) (2021-07-26T15:23:19Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。