Fugu-MT 論文翻訳(概要): Test of Time: Instilling Video-Language Models with a Sense of Time

論文の概要: Test of Time: Instilling Video-Language Models with a Sense of Time

arxiv url: http://arxiv.org/abs/2301.02074v1
Date: Thu, 5 Jan 2023 14:14:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-06 13:22:46.778777
Title: Test of Time: Instilling Video-Language Models with a Sense of Time
Title（参考訳）: テスト・オブ・タイム:時間感のあるビデオ言語モデル
Authors: Piyush Bagad and Makarand Tapaswi and Cees G. M. Snoek
Abstract要約: 我々は時間的理解の特定の側面について考察する:時間秩序の整合性は前/後の関係によって引き起こされる。既存の6つのビデオ言語モデルは、そのような単純な時間的関係でさえも理解に苦慮している。そこで本稿では,少量のビデオテキストデータに基づく事前学習に基づく時間適応手法であるVideoCLIPを提案する。
参考スコア（独自算出の注目度）: 42.290970800790184
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modeling and understanding time remains a challenge in contemporary video understanding models. With language emerging as a key driver towards powerful generalization, it is imperative for foundational video-language models to have a sense of time. In this paper, we consider a specific aspect of temporal understanding: consistency of time order as elicited by before/after relations. We establish that six existing video-language models struggle to understand even such simple temporal relations. We then question whether it is feasible to equip these foundational models with temporal awareness without re-training them from scratch. Towards this, we propose a temporal adaptation recipe on top of one such model, VideoCLIP, based on post-pretraining on a small amount of video-text data. We conduct a zero-shot evaluation of the adapted models on six datasets for three downstream tasks which require a varying degree of time awareness. We observe encouraging performance gains especially when the task needs higher time awareness. Our work serves as a first step towards probing and instilling a sense of time in existing video-language models without the need for data and compute-intense training from scratch.
Abstract（参考訳）: 現代のビデオ理解モデルでは、モデリングと理解時間が課題となっている。言語が強力な一般化への鍵となるため、基礎的なビデオ言語モデルには時間感覚が不可欠である。本稿では時間的理解の特定の側面について考察する:時間秩序の整合性は前/後の関係によって引き起こされる。既存の6つのビデオ言語モデルでは、そのような単純な時間関係を理解するのに苦労している。次に、これらの基礎モデルに時間的意識を持たせることが、スクラッチから再学習することなしに可能かどうかを問う。そこで本研究では,少量のビデオテキストデータに対する事前学習に基づく,そのようなモデルであるvideoclip上での時間適応レシピを提案する。 6つのデータセットに適応したモデルのゼロショット評価を行い、3つの下流タスクを行う。タスクにより高い時間意識を必要とする場合,特にパフォーマンス向上の促進を観察する。私たちの研究は、データやコンピュートインテンストレーニングをスクラッチから必要とせずに、既存のビデオ言語モデルで時間の感覚を探索し、植え込むための第一歩として役立ちます。

関連論文リスト

Universal Video Temporal Grounding with Generative Multi-modal Large Language Models [59.781211641591405]
本稿では,自然言語クエリに基づいて映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解機能を活用した,堅牢で普遍的なビデオグラウンドモデルUniTimeを提案する。我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
論文参考訳（メタデータ） (2025-06-23T17:53:18Z)
On the Consistency of Video Large Language Models in Temporal Comprehension [57.985769348320616]
ビデオ大言語モデル(Video-LLMs)は、時間的に言語クエリを解析し、ビデオモーメントを検索することができる。予測整合性 - 時間的根拠の堅牢性と信頼性を示す重要な指標である。
論文参考訳（メタデータ） (2024-11-20T00:47:17Z)
Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文参考訳（メタデータ） (2024-04-17T16:56:31Z)
VITATECS: A Diagnostic Dataset for Temporal Concept Understanding of Video-Language Models [27.280311932711847]
VITATECS, 診断用VIdeo-Text dAtasetについて述べる。まず、異なる時間的側面を理解するためのVidLMの能力を診断するために、自然言語における時間的概念のきめ細かい分類法を導入する。特定の時間的側面においてのみ、オリジナルと異なる反実的な映像記述を生成する。
論文参考訳（メタデータ） (2023-11-29T07:15:34Z)
HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。 15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文参考訳（メタデータ） (2022-12-30T04:27:01Z)
Long-Form Video-Language Pre-Training with Multimodal Temporal Contrastive Learning [39.80936685227549]
大規模ビデオ言語事前学習では、ビデオ言語理解タスクが大幅に改善されている。我々は、VILA(Long-Form VIdeo-LAnguage Pre-Training Model)を導入し、大規模な長文ビデオおよび段落データセットでトレーニングする。我々は、7つの下流の長文ビデオ言語理解タスクでモデルを微調整し、新しい最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-10-12T09:08:27Z)
Learning Fine-Grained Visual Understanding for Video Question Answering via Decoupling Spatial-Temporal Modeling [28.530765643908083]
空間的時間的モデリングを分離し、画像とビデオ言語を統合して、きめ細かい視覚的理解を学習する。本稿では,ビデオシーケンス中の事象の時間的位置を特定することを必要とする,新たな事前学習対象であるテンポラル参照モデリングを提案する。我々のモデルは、桁違いの大きなデータセットで事前訓練された以前の作業より優れています。
論文参考訳（メタデータ） (2022-10-08T07:03:31Z)
Revisiting the "Video" in Video-Language Understanding [56.15777956496518]
本稿では,ビデオ言語解析の新しいモデルであるアテンポラルプローブ(ATP)を提案する。現在のビデオ言語ベンチマークの限界とポテンシャルを特徴付ける。 ATPをフルビデオレベル時間モデルに効果的に統合することで、効率と最先端の精度が向上することを示す。
論文参考訳（メタデータ） (2022-06-03T17:57:33Z)
Learning Temporal Dynamics from Cycles in Narrated Video [85.89096034281694]
時が経つにつれて世界がどのように変化するかをモデル化する学習問題に対する自己監督型ソリューションを提案します。私たちのモデルは、前方および後方の時間を予測するためにモダリティに依存しない関数を学習します。将来的な動作の予測や画像の時間的順序付けなど,様々なタスクに対して,学習されたダイナミクスモデルを適用する。
論文参考訳（メタデータ） (2021-01-07T02:41:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。