論文の概要: Retrieval-Augmented Egocentric Video Captioning
- arxiv url: http://arxiv.org/abs/2401.00789v1
- Date: Mon, 1 Jan 2024 15:31:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 15:43:48.669201
- Title: Retrieval-Augmented Egocentric Video Captioning
- Title(参考訳): 検索型エゴセントリックビデオキャプション
- Authors: Jilan Xu, Yifei Huang, Junlin Hou, Guo Chen, Yuejie Zhang, Rui Feng,
Weidi Xie
- Abstract要約: EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き寄せる新しいEgoExoNCE損失で、クロスビュー検索モジュールをトレーニングする。
- 参考スコア(独自算出の注目度): 55.96764681240016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding human actions from videos of first-person view poses
significant challenges. Most prior approaches explore representation learning
on egocentric videos only, while overlooking the potential benefit of
exploiting existing large-scale third-person videos. In this paper, (1) we
develop EgoInstructor, a retrieval-augmented multimodal captioning model that
automatically retrieves semantically relevant third-person instructional videos
to enhance the video captioning of egocentric videos. (2) For training the
cross-view retrieval module, we devise an automatic pipeline to discover
ego-exo video pairs from distinct large-scale egocentric and exocentric
datasets. (3) We train the cross-view retrieval module with a novel EgoExoNCE
loss that pulls egocentric and exocentric video features closer by aligning
them to shared text features that describe similar actions. (4) Through
extensive experiments, our cross-view retrieval module demonstrates superior
performance across seven benchmarks. Regarding egocentric video captioning,
EgoInstructor exhibits significant improvements by leveraging third-person
videos as references.
- Abstract(参考訳): 一人称視点のビデオから人間の行動を理解することは大きな課題となる。
従来のアプローチでは、エゴセントリックなビデオのみの表現学習を探求し、既存の大規模な3人称動画を活用できる可能性を見越している。
本稿では,エゴセントリックビデオの動画キャプションを強化するために,セマンティックな第三者指導ビデオを自動的に検索する検索拡張マルチモーダルキャプションモデルであるEgoInstructorを開発する。
2) クロスビュー検索モジュールを訓練するために, 異なる大規模エゴセントリックデータセットと外部セントリックデータセットからエゴ・エクソビデオペアを検出する自動パイプラインを開発した。
3) エゴセントリックやエクソセントリックなビデオ機能を引き寄せる新たなエゴエクソンスロスを,類似したアクションを記述した共有テキスト機能に合わせることで,クロスビュー検索モジュールを訓練する。
(4)7つのベンチマークにおいて,クロスビュー検索モジュールは優れた性能を示す。
エゴセントリックなビデオキャプションに関して、EgoInstructorは、参照として第三者のビデオを活用することで、大幅な改善を示している。
関連論文リスト
- MM-Ego: Towards Building Egocentric Multimodal LLMs [72.47344411599322]
本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築である。
我々は,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックビデオの高品質なQAサンプルを効率よく生成するデータエンジンを開発した。
我々は、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さのビデオで視覚的詳細を認識・記憶するモデルの能力を評価する。
論文 参考訳(メタデータ) (2024-10-09T17:59:59Z) - EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation [54.32133648259802]
CVPR 2024のEgoVis Challengesには、Ego4Dチャレンジの5トラックとEPIC-Kitchensチャレンジの3トラックが含まれています。
ビデオ言語2towerモデルを構築し,厳密に整理された自我中心型ビデオデータを活用することにより,EgoVideoという新しい基礎モデルを導入する。
このモデルは、エゴセントリックなビデオの特徴に特化して設計されており、当社のコンペティションへの強力なサポートを提供する。
論文 参考訳(メタデータ) (2024-06-26T05:01:37Z) - EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions? [48.702973928321946]
我々は、EgoNCE++という新しい非対称なコントラスト対象をEgoHOIに導入する。
実験の結果,EgoNCE++はオープン語彙HOI認識,マルチインスタンス検索,アクション認識タスクを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z) - Exo2EgoDVC: Dense Video Captioning of Egocentric Procedural Activities
Using Web Instructional Videos [27.209391862016574]
本稿では,高密度ビデオキャプションのクロスビュー知識伝達のための新しいベンチマークを提案する。
我々は、エゴセントリックな視点で見るWebインストラクショナルビデオのモデルを、エゴセントリックな視点に適応させる。
論文 参考訳(メタデータ) (2023-11-28T02:51:13Z) - Exploring adaptation of VideoMAE for Audio-Visual Diarization & Social @
Ego4d Looking at me Challenge [5.429147779652134]
VideoMAEは、セルフ教師付きビデオ事前トレーニングのためのデータ効率のよい事前トレーニングモデルである。
ビデオMAEから転送された表現は時空間モデルに優れていることを示す。
論文 参考訳(メタデータ) (2022-11-17T06:49:57Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。