Fugu-MT 論文翻訳(概要): Text-Conditioned Resampler For Long Form Video Understanding

論文の概要: Text-Conditioned Resampler For Long Form Video Understanding

arxiv url: http://arxiv.org/abs/2312.11897v1
Date: Tue, 19 Dec 2023 06:42:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 16:51:00.588196
Title: Text-Conditioned Resampler For Long Form Video Understanding
Title（参考訳）: 長文映像理解のためのテキストコンディショニングリサンプラー
Authors: Bruno Korbar, Yongqin Xian, Alessio Tonioni, Andrew Zisserman, Federico Tombari
Abstract要約: タスクの長いビデオシーケンスを処理するために,テキスト条件付きビデオリサンプラー(TCR)モジュールを提案する。 TCRは、テキスト条件が与えられたビデオから関連する視覚的特徴をローカライズし、テキスト応答を生成するために大きな言語モデルを提供する。軽量な設計とクロスアテンションの使用により、TCRは100フレーム以上を一度に処理できるため、以前の作品よりもずっと長いビデオのチャンクを使用することができる。
参考スコア（独自算出の注目度）: 101.7267777444705
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Videos are highly redundant data source and it is often enough to identify a few key moments to solve any given task. In this paper, we present a text-conditioned video resampler (TCR) module that uses a pre-trained and frozen visual encoder and large language model (LLM) to process long video sequences for a task. TCR localises relevant visual features from the video given a text condition and provides them to a LLM to generate a text response. Due to its lightweight design and use of cross-attention, TCR can process more than 100 frames at a time allowing the model to use much longer chunks of video than earlier works. We make the following contributions: (i) we design a transformer-based sampling architecture that can process long videos conditioned on a task, together with a training method that enables it to bridge pre-trained visual and language models; (ii) we empirically validate its efficacy on a wide variety of evaluation tasks, and set a new state-of-the-art on NextQA, EgoSchema, and the EGO4D-LTA challenge; and (iii) we determine tasks which require longer video contexts and that can thus be used effectively for further evaluation of long-range video models.
Abstract（参考訳）: ビデオは極めて冗長なデータソースであり、特定のタスクを解決するために重要な瞬間を特定するのに十分であることが多い。本稿では,学習済みで凍結したビジュアルエンコーダと大規模言語モデル(LLM)を用いて,タスクの長いビデオシーケンスを処理するテキストコンディショニングビデオリサンプラー(TCR)モジュールを提案する。 TCRはテキスト条件が与えられたビデオから関連する視覚的特徴をローカライズし、LLMに提供してテキスト応答を生成する。軽量な設計とクロスアテンションの使用により、TCRは100フレーム以上を一度に処理できるため、以前の作品よりもずっと長いビデオのチャンクを使用することができる。私たちは次のような貢献をします i) タスクを条件とした長時間ビデオの処理が可能なトランスフォーマティブベースのサンプリングアーキテクチャと,事前学習された視覚および言語モデルのブリッジ化が可能なトレーニング手法をデザインする。 (ii)幅広い評価課題においてその効果を実証的に検証し,nextqa, egoschema, ego4d-ltaチャレンジに新たな最新技術を設定した。 (iii)より長い映像コンテキストを必要とするタスクを判断し、長距離映像モデルのさらなる評価に効果的に使用できる。

関連論文リスト

ViSS-R1: Self-Supervised Reinforcement Video Reasoning [84.1180294023835]
本稿では,新しい自己教師付き強化学習GRPOアルゴリズム(Pretext-GRPO)を標準R1パイプライン内に導入する。また、プリテキストタスクに基づく自己教師型学習をMLLMのR1ポストトレーニングパラダイムに直接統合するViSS-R1フレームワークを提案する。
論文参考訳（メタデータ） (2025-11-17T07:00:42Z)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
Aligned with LLM: a new multi-modal training paradigm for encoding fMRI activity in visual cortex [4.57590454144072]
近年,事前訓練された大規模言語モデル(LLM)の人気が高まっている。本稿では,視覚野のfMRI活性を符号化し,LLMと整合した新しいマルチモーダルトレーニングパラダイムを提案する。
論文参考訳（メタデータ） (2024-01-08T12:30:23Z)
VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文参考訳（メタデータ） (2023-12-04T19:48:02Z)
Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。 Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文参考訳（メタデータ） (2023-10-08T03:35:27Z)
TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。 TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文参考訳（メタデータ） (2022-09-28T15:08:03Z)
Reading-strategy Inspired Visual Representation Learning for Text-to-Video Retrieval [41.420760047617506]
クロスモーダル表現学習は、ビデオと文の両方を、意味的類似性のための共通空間に計画する。人間の読み方から着想を得た映像表現学習(RIVRL)を提案する。我々のモデル RIVRL は TGIF と VATEX の新たな最先端を実現する。
論文参考訳（メタデータ） (2022-01-23T03:38:37Z)
Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文参考訳（メタデータ） (2021-12-08T18:58:16Z)
Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文参考訳（メタデータ） (2020-12-10T14:47:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。