論文の概要: InternVideo-Ego4D: A Pack of Champion Solutions to Ego4D Challenges
- arxiv url: http://arxiv.org/abs/2211.09529v1
- Date: Thu, 17 Nov 2022 13:45:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 16:29:37.948179
- Title: InternVideo-Ego4D: A Pack of Champion Solutions to Ego4D Challenges
- Title(参考訳): InternVideo-Ego4D:Ego4Dに挑戦するチャンピオンソリューション
- Authors: Guo Chen, Sen Xing, Zhe Chen, Yi Wang, Kunchang Li, Yizhuo Li, Yi Liu,
Jiahao Wang, Yin-Dong Zheng, Bingkun Huang, Zhiyu Zhao, Junting Pan, Yifei
Huang, Zun Wang, Jiashuo Yu, Yinan He, Hongjie Zhang, Tong Lu, Yali Wang,
Limin Wang, Yu Qiao
- Abstract要約: Ego4D Challengeで5トラックにチャンピオンソリューションを提示します。
ビデオファンデーションモデルであるInternVideoを5つのEgo4Dタスクに活用しています。
InternVideo-Ego4Dは、強力な基盤モデルを下流のエゴ中心のビデオ理解タスクに適用するための効果的なパラダイムである。
- 参考スコア(独自算出の注目度): 66.62885923201543
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this report, we present our champion solutions to five tracks at Ego4D
challenge. We leverage our developed InternVideo, a video foundation model, for
five Ego4D tasks, including Moment Queries, Natural Language Queries, Future
Hand Prediction, State Change Object Detection, and Short-term Object
Interaction Anticipation. InternVideo-Ego4D is an effective paradigm to adapt
the strong foundation model to the downstream ego-centric video understanding
tasks with simple head designs. In these five tasks, the performance of
InternVideo-Ego4D comprehensively surpasses the baseline methods and the
champions of CVPR2022, demonstrating the powerful representation ability of
InternVideo as a video foundation model. Our code will be released at
https://github.com/OpenGVLab/ego4d-eccv2022-solutions
- Abstract(参考訳): 本稿では,Ego4D Challengeの5トラックに対して,チャンピオンソリューションを提案する。
我々は,ビデオファウンデーションモデルであるinternvideoを,モーメントクエリ,自然言語クエリ,将来の手予測,状態変化オブジェクト検出,短期オブジェクトインタラクション予測を含む5つのego4dタスクに活用した。
InternVideo-Ego4Dは、シンプルなヘッドデザインで下流のエゴ中心のビデオ理解タスクに強力な基礎モデルを適用するための効果的なパラダイムである。
これらの5つのタスクにおいて、InternVideo-Ego4DのパフォーマンスはCVPR2022のベースラインメソッドとチャンピオンを網羅的に上回り、ビデオ基盤モデルとしてのInternVideoの強力な表現能力を実証している。
私たちのコードはhttps://github.com/OpenGVLab/ego4d-eccv2022-solutionsでリリースされます。
関連論文リスト
- VideoPrism: A Foundational Visual Encoder for Video Understanding [91.33490377573166]
VideoPrismは、単一の凍結モデルで多様なビデオ理解タスクに取り組む汎用ビデオエンコーダである。
我々は,36Mの高品質ビデオキャプチャ対と582Mの動画クリップを含む異種コーパス上で,VoicePrismを事前訓練した。
我々は、Webビデオ質問応答から科学用CVまで、ビデオ理解タスクの4つのグループでビデオPrismを広範囲にテストし、33の動画理解ベンチマークのうち30で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-02-20T18:29:49Z) - VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion
Models [96.55004961251889]
Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。
我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。
様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - Guided Attention for Next Active Object @ EGO4D STA Challenge [31.620555223890626]
高速ネットワークに適用したガイドアテンションを使って、StillFastの上にモデルを構築します。
EGO4D短期オブジェクトインタラクション予測チャレンジの課題テストセットにおいて,本モデルにより検証セットの性能が向上し,SOTA(State-of-the-art)結果が得られた。
論文 参考訳(メタデータ) (2023-05-25T13:56:30Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Exploring adaptation of VideoMAE for Audio-Visual Diarization & Social @
Ego4d Looking at me Challenge [5.429147779652134]
VideoMAEは、セルフ教師付きビデオ事前トレーニングのためのデータ効率のよい事前トレーニングモデルである。
ビデオMAEから転送された表現は時空間モデルに優れていることを示す。
論文 参考訳(メタデータ) (2022-11-17T06:49:57Z) - Exploring Anchor-based Detection for Ego4D Natural Language Query [74.87656676444163]
本稿では,CVPR 2022におけるEgo4D自然言語クエリの課題について報告する。
上記の課題を解決するために,本課題の解決策を提案する。
論文 参考訳(メタデータ) (2022-08-10T14:43:37Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z) - Data augmentation techniques for the Video Question Answering task [16.548016892117083]
われわれは、Egocentric VideoQAタスクに重点を置いている。
サイズが小さいため、モデルはすぐにオーバーフィットする傾向にある。
提案手法は,検討されたベースラインに対して,最終的な精度を+5.5%向上させるものである。
論文 参考訳(メタデータ) (2020-08-22T14:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。