Fugu-MT 論文翻訳(概要): Self-Chained Image-Language Model for Video Localization and Question Answering

論文の概要: Self-Chained Image-Language Model for Video Localization and Question Answering

arxiv url: http://arxiv.org/abs/2305.06988v2
Date: Wed, 29 Nov 2023 21:24:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 20:48:28.468373
Title: Self-Chained Image-Language Model for Video Localization and Question Answering
Title（参考訳）: ビデオローカライズと質問応答のための自己連鎖型画像言語モデル
Authors: Shoubin Yu, Jaemin Cho, Prateek Yadav, Mohit Bansal
Abstract要約: ビデオ上での時間的ローカライゼーションとQAに対処するために,SeViLA(Se-Chained Video-Answering)フレームワークを提案する。 SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。
参考スコア（独自算出の注目度）: 66.86740990630433
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent studies have shown promising results on utilizing large pre-trained image-language models for video question answering. While these image-language models can efficiently bootstrap the representation learning of video-language models, they typically concatenate uniformly sampled video frames as visual inputs without explicit language-aware, temporal modeling. When only a portion of a video input is relevant to the language query, such uniform frame sampling can often lead to missing important visual cues. Although humans often find a video moment to focus on and rewind the moment to answer questions, training a query-aware video moment localizer often requires expensive annotations and high computational costs. To address this issue, we propose Self-Chained Video Localization-Answering (SeViLA), a novel framework that leverages a single image-language model (BLIP-2) to tackle both temporal keyframe localization and QA on videos. SeViLA framework consists of two modules: Localizer and Answerer, where both are parameter-efficiently fine-tuned from BLIP-2. We propose two ways of chaining these modules for cascaded inference and self-refinement. First, in the forward chain, the Localizer finds multiple language-aware keyframes in a video, which the Answerer uses to predict the answer. Second, in the reverse chain, the Answerer generates keyframe pseudo-labels to refine the Localizer, alleviating the need for expensive video moment localization annotations. Our SeViLA framework outperforms several strong baselines on 5 challenging video QA and event prediction benchmarks, and achieves the state-of-the-art in both fine-tuning (NExT-QA, STAR) and zero-shot (NExT-QA, STAR, How2QA, VLEP) settings. We also analyze the impact of Localizer, comparisons of Localizer with other temporal localization models, pre-training/self-refinement of Localizer, and varying the number of keyframes.
Abstract（参考訳）: 近年,ビデオ質問応答に事前学習した大規模画像言語モデルを用いることで有望な結果が得られた。これらの画像言語モデルは、ビデオ言語モデルの表現学習を効率的にブートストラップすることができるが、通常、一様にサンプリングされたビデオフレームを、明示的な言語を意識せず、時間的モデリングとして視覚入力として結合する。ビデオ入力の一部だけが言語クエリに関連する場合、そのような均一なフレームサンプリングは、しばしば重要な視覚的手がかりを失う。人間はしばしばビデオモーメントを見つけ、質問に答えるためにモーメントを戻そうとするが、クエリアウェアなビデオモーメントローカライザーのトレーニングには、高価なアノテーションと高い計算コストが必要になる。そこで本研究では,単一の画像言語モデル(blip-2)を用いて,時間的キーフレームのローカライゼーションとビデオ上でのqaに取り組むための新しいフレームワークであるsevilaを提案する。 SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。本稿では,これらのモジュールの連鎖化手法を提案する。まず、フォワードチェーンでは、Localizerがビデオ中に複数の言語対応のキーフレームを見つけ、Answererが答えを予測するために使用する。次に、Answererはキーフレームの擬似ラベルを生成してLocalizerを洗練させ、高価なビデオモーメントローカライゼーションアノテーションの必要性を軽減する。我々のSeViLAフレームワークは,5つの挑戦的ビデオQAとイベント予測ベンチマークにおいて,いくつかの強力なベースラインを上回り,微細チューニング(NExT-QA, STAR)とゼロショット(NExT-QA, STAR, How2QA, VLEP)の両方で最先端を実現する。また、ローカライザの影響、ローカライザと他の時間的ローカライズモデルとの比較、ローカライザの事前訓練/自己調整、キーフレーム数の変化についても分析する。

関連論文リスト

Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文参考訳（メタデータ） (2024-11-20T13:34:22Z)
VideoDistill: Language-aware Vision Distillation for Video Question Answering [24.675876324457747]
本稿では,視覚知覚と回答生成プロセスの両方において,言語認識(すなわち目標駆動)の振る舞いを持つフレームワークであるVideoDistillを提案する。 VideoDistillは質問関連のビジュアル埋め込みからのみ回答を生成する。我々は,様々な挑戦的ビデオ質問応答ベンチマークを実験的に評価し,VideoDistillは最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-04-01T07:44:24Z)
UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文参考訳（メタデータ） (2023-08-21T22:15:20Z)
Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment [10.567291051485194]
ゼロショット方式で高密度映像キャプションを行う新しい手法であるZeroTAを提案する。テスト時に各入力ビデオ内のイベントをローカライズし,記述する。
論文参考訳（メタデータ） (2023-07-05T23:01:26Z)
Revealing Single Frame Bias for Video-and-Language Learning [115.01000652123882]
単一フレームのトレーニングモデルでは,トレーニングに複数のフレームを使用する既存手法よりも優れたパフォーマンスが得られることを示す。この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを明らかにする。本稿では、時間的モデリングを促進するために、既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
論文参考訳（メタデータ） (2022-06-07T16:28:30Z)
Rethinking Multi-Modal Alignment in Video Question Answering from Feature and Sample Perspectives [30.666823939595627]
本稿では,ビデオQAにおけるマルチモーダルアライメント問題について,特徴とサンプルの観点から再考する。我々はヘテロジニアスグラフアーキテクチャを採用し、トラジェクトリレベルとフレームレベルの両方の視覚特徴を言語特徴と整合させる階層的なフレームワークを設計する。提案手法は, NExT-QAベンチマークにおいて, 最先端モデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2022-04-25T10:42:07Z)
Fine-grained Iterative Attention Network for TemporalLanguage Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文参考訳（メタデータ） (2020-08-06T04:09:03Z)
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2020-05-13T16:35:27Z)
HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。 HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。 HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文参考訳（メタデータ） (2020-05-01T03:49:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。