論文の概要: RTQ: Rethinking Video-language Understanding Based on Image-text Model
- arxiv url: http://arxiv.org/abs/2312.00347v2
- Date: Mon, 18 Dec 2023 04:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 22:00:30.085899
- Title: RTQ: Rethinking Video-language Understanding Based on Image-text Model
- Title(参考訳): RTQ:画像テキストモデルに基づくビデオ言語理解の再考
- Authors: Xiao Wang, Yaoyu Li, Tian Gan, Zheng Zhang, Jingjing Lv, and Liqiang
Nie
- Abstract要約: ビデオ言語理解は、非常に複雑なセマンティックな詳細を含んでいるため、ユニークな課題を提示する。
本稿では,これらの課題を同時に解決するRTQという新しいフレームワークを提案する。
本モデルは,ビデオ言語による事前学習がなくても,優れた性能を示す。
- 参考スコア(独自算出の注目度): 55.278942477715084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in video-language understanding have been established on
the foundation of image-text models, resulting in promising outcomes due to the
shared knowledge between images and videos. However, video-language
understanding presents unique challenges due to the inclusion of highly complex
semantic details, which result in information redundancy, temporal dependency,
and scene complexity. Current techniques have only partially tackled these
issues, and our quantitative analysis indicates that some of these methods are
complementary. In light of this, we propose a novel framework called RTQ
(Refine, Temporal model, and Query), which addresses these challenges
simultaneously. The approach involves refining redundant information within
frames, modeling temporal relations among frames, and querying task-specific
information from the videos. Remarkably, our model demonstrates outstanding
performance even in the absence of video-language pre-training, and the results
are comparable with or superior to those achieved by state-of-the-art
pre-training methods. Code is available at
https://github.com/SCZwangxiao/RTQ-MM2023.
- Abstract(参考訳): 近年の映像理解の進歩は、画像テキストモデルの基礎として確立され、画像と映像の共有知識によって有望な結果をもたらす。
しかし、ビデオ言語理解は、情報冗長性、時間依存、シーンの複雑さをもたらす非常に複雑な意味的詳細を含んでいるため、独特の課題を呈する。
現在の手法はこれらの問題に部分的に取り組んだだけであり、定量的分析によりこれらの手法が相補的であることを示唆している。
そこで我々はRTQ(Refine, Temporal model, Query)と呼ばれる新しいフレームワークを提案し,これらの課題を同時に解決する。
このアプローチでは、フレーム内の冗長な情報を精製し、フレーム間の時間的関係をモデル化し、ビデオからタスク固有の情報をクエリする。
驚くべきことに,本モデルは,映像言語前訓練がなくても優れた性能を示し,最先端前訓練法で達成されたものと同等かそれ以上である。
コードはhttps://github.com/sczwangxiao/rtq-mm2023で入手できる。
関連論文リスト
- Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - Semantically Consistent Video Inpainting with Conditional Diffusion Models [16.42354856518832]
本稿では,条件付きビデオ拡散モデルを用いた問題解決フレームワークを提案する。
我々は,コンテキストにおける重要な長距離依存関係をキャプチャする塗装特化サンプリングスキームを導入する。
不完全フレーム中の既知の画素を条件付けするための新しい手法を考案する。
論文 参考訳(メタデータ) (2024-04-30T23:49:26Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z) - Revisiting the "Video" in Video-Language Understanding [56.15777956496518]
本稿では,ビデオ言語解析の新しいモデルであるアテンポラルプローブ(ATP)を提案する。
現在のビデオ言語ベンチマークの限界とポテンシャルを特徴付ける。
ATPをフルビデオレベル時間モデルに効果的に統合することで、効率と最先端の精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-03T17:57:33Z) - Rethinking Multi-Modal Alignment in Video Question Answering from
Feature and Sample Perspectives [30.666823939595627]
本稿では,ビデオQAにおけるマルチモーダルアライメント問題について,特徴とサンプルの観点から再考する。
我々はヘテロジニアスグラフアーキテクチャを採用し、トラジェクトリレベルとフレームレベルの両方の視覚特徴を言語特徴と整合させる階層的なフレームワークを設計する。
提案手法は, NExT-QAベンチマークにおいて, 最先端モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-04-25T10:42:07Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - Hierarchical Conditional Relation Networks for Multimodal Video Question
Answering [67.85579756590478]
ビデオQAは、少なくとも2つの複雑さのレイヤを追加します。
条件付き関係ネットワーク(CRN)は、入力の関係を符号化する新しいオブジェクトのセットに変換するテンソルオブジェクトのセットを入力として取り込む。
その後、CRNはビデオQAに2つの形式で適用され、答えが視覚コンテンツからのみ推論されるショートフォームと、サブタイトルなどの関連情報が提示されるロングフォームである。
論文 参考訳(メタデータ) (2020-10-18T02:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。