Fugu-MT 論文翻訳(概要): Frame-Subtitle Self-Supervision for Multi-Modal Video Question Answering

論文の概要: Frame-Subtitle Self-Supervision for Multi-Modal Video Question Answering

arxiv url: http://arxiv.org/abs/2209.03609v1
Date: Thu, 8 Sep 2022 07:20:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-09 13:23:24.133378
Title: Frame-Subtitle Self-Supervision for Multi-Modal Video Question Answering
Title（参考訳）: マルチモーダルビデオ質問応答のためのフレームサブタイトルセルフスーパービジョン
Authors: Jiong Wang, Zhou Zhao, Weike Jin
Abstract要約: マルチモーダルなビデオ質問応答は、正しい回答を予測し、その質問に関連する時間的境界をローカライズすることを目的としている。我々は、QAアノテーションのみを使用する、弱い教師付き質問基盤(WSQG)の設定を考案する。フレームと字幕の対応をフレーム字幕(FS)に変換し,時間的注意スコアの最適化を支援する。
参考スコア（独自算出の注目度）: 73.11017833431313
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modal video question answering aims to predict correct answer and localize the temporal boundary relevant to the question. The temporal annotations of questions improve QA performance and interpretability of recent works, but they are usually empirical and costly. To avoid the temporal annotations, we devise a weakly supervised question grounding (WSQG) setting, where only QA annotations are used and the relevant temporal boundaries are generated according to the temporal attention scores. To substitute the temporal annotations, we transform the correspondence between frames and subtitles to Frame-Subtitle (FS) self-supervision, which helps to optimize the temporal attention scores and hence improve the video-language understanding in VideoQA model. The extensive experiments on TVQA and TVQA+ datasets demonstrate that the proposed WSQG strategy gets comparable performance on question grounding, and the FS self-supervision helps improve the question answering and grounding performance on both QA-supervision only and full-supervision settings.
Abstract（参考訳）: マルチモーダルビデオ質問応答は、正しい回答を予測し、質問に関連する時間的境界を局所化することを目的としている。質問の時間的アノテーションは、最近の作品のQAパフォーマンスと解釈可能性を改善するが、通常は経験的かつコストがかかる。時間的アノテーションを避けるため、時間的注意スコアに応じてQAアノテーションのみを使用し、関連する時間的境界を生成する、弱教師付き質問基礎設定(WSQG)を考案する。時間的アノテーションの代替として、フレームと字幕の対応をフレーム字幕(FS)に変換し、時間的注意スコアを最適化し、ビデオQAモデルにおけるビデオ言語理解を改善する。 TVQAとTVQA+データセットに関する広範な実験は、提案されたWSQG戦略が質問ベースで同等のパフォーマンスを得ることを示した。

関連論文リスト

FIQ: Fundamental Question Generation with the Integration of Question Embeddings for Video Question Answering [26.585985828583304]
ビデオ質問(英語: Video question of answering、VQA)とは、ある質問に答えるためにビデオの解釈を必要とするタスクである。本稿では,ビデオの基本的な理解を深めることにより,モデルの推論能力を高めるための新しい手法を提案する。
論文参考訳（メタデータ） (2025-07-17T06:19:38Z)
HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding [14.464718780172582]
タスク対応の階層型Q-FormerベースのフレームワークであるHierarQを導入する。ビデオ理解にタスク認識を組み込むために,軽量な2ストリーム言語誘導機能変調器を導入する。ビデオ理解、質問応答、キャプションタスクにわたる10の動画ベンチマークの大規模な評価は、HierarQの最先端のパフォーマンスを示している。
論文参考訳（メタデータ） (2025-03-11T16:21:23Z)
Towards Fine-Grained Video Question Answering [17.582244704442747]
本稿では,MOMA-QAデータセットについて述べる。地上の真実のシーングラフと時間間隔アノテーションにより、MOMA-QAはきめ細かいビデオ理解のためのモデルを開発するのに最適である。本稿では、シーングラフ予測器、効率的なフレーム検索器、時間的局所化と微粒化の関係理解のための事前学習された大規模言語モデルを含む、新しいビデオ言語モデルSGVLMを提案する。
論文参考訳（メタデータ） (2025-03-10T01:02:01Z)
TimeLogic: A Temporal Logic Benchmark for Video QA [64.32208175236323]
時間的論理的質問を自動的に生成するTimeLogic QA(TLQA)フレームワークを導入する。私たちはSTAR、Breakfast、AGQA、CrossTaskの4つのデータセットを活用し、カテゴリ毎に2kと10kのQAペアを生成します。時間的複雑性の異なる16カテゴリの時間論理に対して,ビデオQAモデルの時間的推論性能を評価する。
論文参考訳（メタデータ） (2025-01-13T11:12:59Z)
Perceive, Query & Reason: Enhancing Video QA with Question-Guided Temporal Queries [50.47265863322891]
Video Question Answering (ビデオQA)は、ビデオ全体を理解するためにモデルを必要とする、難しいビデオ理解タスクである。近年のMLLM(Multimodal Large Language Models)の進歩は,ビデオQAに特有なコモンセンス推論機能を活用して変化している。本稿では,フレーム単位の視覚知覚とLCMの推論能力の間に疑問を導いた時間的ブリッジを生成する,新しい時間的モデリング手法であるT-Formerを提案する。
論文参考訳（メタデータ） (2024-12-26T17:53:14Z)
Empowering Large Language Model for Continual Video Question Answering with Collaborative Prompting [15.161997580529075]
本稿では,連続学習フレームワークにおけるビデオQAの新たな課題について考察する。我々は,特定の質問制約の促進,知識獲得の促進,視覚的時間的認識の促進を統合した協調的プロンプト(ColPro)を提案する。 NExT-QAデータセットとDramaQAデータセットの実験的結果は、ColProが既存のアプローチよりも優れたパフォーマンスを達成することを示している。
論文参考訳（メタデータ） (2024-10-01T15:07:07Z)
Multi-hop Question Answering under Temporal Knowledge Editing [9.356343796845662]
知識編集(KE)におけるマルチホップ質問応答(MQA)は,大規模言語モデルの時代において大きな注目を集めている。 KEの下でのMQAの既存のモデルは、明示的な時間的コンテキストを含む質問を扱う場合、パフォーマンスが劣っている。 TEMPoral knowLEdge augmented Multi-hop Question Answering (TEMPLE-MQA) を提案する。
論文参考訳（メタデータ） (2024-03-30T23:22:51Z)
Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering [11.244643114253773]
Video Question(ビデオQA)は、ビデオで観察される情報に基づいて、自然言語の質問に答えることを目的としている。視覚的な入力として疑問クリティカルな瞬間に答えを推論するために,LMMを強制する,弱い教師付きフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-19T14:21:46Z)
Locate before Answering: Answer Guided Question Localization for Video Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-10-05T08:19:16Z)
Invariant Grounding for Video Question Answering [72.87173324555846]
Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエストペアと回答の間の表面的相関に基づく。 Invariant Grounding for VideoQA (IGV) という新たな学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-06-06T04:37:52Z)
Structured Two-stream Attention Network for Video Question Answering [168.95603875458113]
本研究では,自由形式の自然言語やオープンな自然言語の疑問に答えるために,構造化された2ストリーム注意ネットワーク,すなわちSTAを提案する。まず、構造化セグメントコンポーネントを用いてビデオ中にリッチな長距離時間構造を推定し、テキスト特徴を符号化する。そして、構造化された2ストリームアテンションコンポーネントは、重要な視覚的インスタンスを同時にローカライズし、背景映像の影響を低減し、関連するテキストに焦点を当てる。
論文参考訳（メタデータ） (2022-06-02T12:25:52Z)
NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文参考訳（メタデータ） (2021-05-18T04:56:46Z)
Hierarchical Conditional Relation Networks for Multimodal Video Question Answering [67.85579756590478]
ビデオQAは、少なくとも2つの複雑さのレイヤを追加します。条件付き関係ネットワーク(CRN)は、入力の関係を符号化する新しいオブジェクトのセットに変換するテンソルオブジェクトのセットを入力として取り込む。その後、CRNはビデオQAに2つの形式で適用され、答えが視覚コンテンツからのみ推論されるショートフォームと、サブタイトルなどの関連情報が提示されるロングフォームである。
論文参考訳（メタデータ） (2020-10-18T02:31:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。