論文の概要: Self-Chained Image-Language Model for Video Localization and Question
Answering
- arxiv url: http://arxiv.org/abs/2305.06988v1
- Date: Thu, 11 May 2023 17:23:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 13:44:07.285218
- Title: Self-Chained Image-Language Model for Video Localization and Question
Answering
- Title(参考訳): ビデオローカライズと質問応答のための自己連鎖型画像言語モデル
- Authors: Shoubin Yu, Jaemin Cho, Prateek Yadav, Mohit Bansal
- Abstract要約: 本稿では,ビデオ上での時間的ローカライゼーションとQAの両方に取り組むための新しいフレームワークを提案する。
SeViLAはLocalizerとAnswererの2つのモジュールで構成される。
SeViLAは5つのビデオQAとイベント予測タスクにおいて、いくつかの強力なベースライン/前処理を上回り、微調整とゼロショットの両方で最先端の処理を実現している。
- 参考スコア(独自算出の注目度): 75.76227634904727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have shown promising results on utilizing pre-trained
image-language models for video question answering. While these image-language
models can efficiently bootstrap the representation learning of video-language
models, they typically concatenate uniformly sampled video frames as visual
inputs without explicit language-aware, temporal modeling. When only a portion
of a video input is relevant to the language query, such uniform frame sampling
can often lead to missing important visual cues. Although humans often find a
video moment to focus on and rewind the moment to answer questions, training a
query-aware video moment localizer often requires expensive annotations and
high computational costs. To address this issue, we propose Self-Chained Video
Localization-Answering (SeViLA), a novel framework that leverages a single
image-language model (BLIP-2) to tackle both temporal keyframe localization and
QA on videos. SeViLA framework consists of two modules: Localizer and Answerer,
where both are parameter-efficiently fine-tuned from BLIP-2. We chain these
modules for cascaded inference and self-refinement. First, in the forward
chain, the Localizer finds multiple language-aware keyframes in a video, which
the Answerer uses to predict the answer. Second, in the reverse chain, the
Answerer generates keyframe pseudo-labels to refine the Localizer, alleviating
the need for expensive video moment localization annotations. SeViLA
outperforms several strong baselines/previous works on five video QA and event
prediction tasks, and achieves the state-of-the-art in both fine-tuning
(NExT-QA, STAR) and zero-shot (NExT-QA, STAR, How2QA, VLEP) settings. We show a
comprehensive analysis, e.g., the impact of Localizer, comparisons of Localizer
with other temporal localization models, pre-training/self-refinement of
Localizer, and varying the number of keyframes.
- Abstract(参考訳): 近年,ビデオ質問応答における事前学習画像言語モデルの有用性が示唆されている。
これらの画像言語モデルは、ビデオ言語モデルの表現学習を効率的にブートストラップすることができるが、通常、一様にサンプリングされたビデオフレームを、明示的な言語を意識せず、時間的モデリングとして視覚入力として結合する。
ビデオ入力の一部だけが言語クエリに関連する場合、そのような均一なフレームサンプリングは、しばしば重要な視覚的手がかりを失う。
人間はしばしばビデオモーメントを見つけ、質問に答えるためにモーメントを戻そうとするが、クエリアウェアなビデオモーメントローカライザーのトレーニングには、高価なアノテーションと高い計算コストが必要になる。
そこで本研究では,単一の画像言語モデル(blip-2)を用いて,時間的キーフレームのローカライゼーションとビデオ上でのqaに取り組むための新しいフレームワークであるsevilaを提案する。
SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。
これらのモジュールは、ケースド推論と自己精製のためにチェーンします。
まず、フォワードチェーンでは、Localizerがビデオ中に複数の言語対応のキーフレームを見つけ、Answererが答えを予測するために使用する。
次に、Answererはキーフレームの擬似ラベルを生成してLocalizerを洗練させ、高価なビデオモーメントローカライゼーションアノテーションの必要性を軽減する。
SeViLAは5つのビデオQAとイベント予測タスクにおいていくつかの強力なベースライン/前処理を上回り、微調整(NExT-QA、STAR)とゼロショット(NExT-QA、STAR、How2QA、VLEP)の両方で最先端を実現する。
例えば、ローカライザの影響、ローカライザと他の時間的ローカライゼーションモデルの比較、ローカライザの事前学習/自己調整、キーフレーム数の変化など、包括的な分析結果を示す。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - VideoDistill: Language-aware Vision Distillation for Video Question Answering [24.675876324457747]
本稿では,視覚知覚と回答生成プロセスの両方において,言語認識(すなわち目標駆動)の振る舞いを持つフレームワークであるVideoDistillを提案する。
VideoDistillは質問関連のビジュアル埋め込みからのみ回答を生成する。
我々は,様々な挑戦的ビデオ質問応答ベンチマークを実験的に評価し,VideoDistillは最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-01T07:44:24Z) - Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment [10.567291051485194]
ゼロショット方式で高密度映像キャプションを行う新しい手法であるZeroTAを提案する。
テスト時に各入力ビデオ内のイベントをローカライズし,記述する。
論文 参考訳(メタデータ) (2023-07-05T23:01:26Z) - Revealing Single Frame Bias for Video-and-Language Learning [115.01000652123882]
単一フレームのトレーニングモデルでは,トレーニングに複数のフレームを使用する既存手法よりも優れたパフォーマンスが得られることを示す。
この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを明らかにする。
本稿では、時間的モデリングを促進するために、既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
論文 参考訳(メタデータ) (2022-06-07T16:28:30Z) - Rethinking Multi-Modal Alignment in Video Question Answering from
Feature and Sample Perspectives [30.666823939595627]
本稿では,ビデオQAにおけるマルチモーダルアライメント問題について,特徴とサンプルの観点から再考する。
我々はヘテロジニアスグラフアーキテクチャを採用し、トラジェクトリレベルとフレームレベルの両方の視覚特徴を言語特徴と整合させる階層的なフレームワークを設計する。
提案手法は, NExT-QAベンチマークにおいて, 最先端モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-04-25T10:42:07Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。