論文の概要: LiVLR: A Lightweight Visual-Linguistic Reasoning Framework for Video
Question Answering
- arxiv url: http://arxiv.org/abs/2111.14547v1
- Date: Mon, 29 Nov 2021 14:18:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 17:39:44.932732
- Title: LiVLR: A Lightweight Visual-Linguistic Reasoning Framework for Video
Question Answering
- Title(参考訳): LiVLR:ビデオ質問応答のための軽量ビジュアル言語推論フレームワーク
- Authors: Jingjing Jiang, Ziyi Liu, Yifan Liu, and Nanning Zheng
- Abstract要約: 軽量な視覚言語推論フレームワークLiVLRを提案する。
LiVLRは、まず、グラフベースの視覚と言語のアブリケーションを使用して、多義的な視覚と言語表現を得る。
提案したLiVLRは軽量であり、MRSVTT-QAとKnowIT VQAの2つのベンチマークでその優位性を示している。
- 参考スコア(独自算出の注目度): 52.01949029046939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Question Answering (VideoQA), aiming to correctly answer the given
question based on understanding multi-modal video content, is challenging due
to the rich video content. From the perspective of video understanding, a good
VideoQA framework needs to understand the video content at different semantic
levels and flexibly integrate the diverse video content to distill
question-related content. To this end, we propose a Lightweight
Visual-Linguistic Reasoning framework named LiVLR. Specifically, LiVLR first
utilizes the graph-based Visual and Linguistic Encoders to obtain multi-grained
visual and linguistic representations. Subsequently, the obtained
representations are integrated with the devised Diversity-aware
Visual-Linguistic Reasoning module (DaVL). The DaVL considers the difference
between the different types of representations and can flexibly adjust the
importance of different types of representations when generating the
question-related joint representation, which is an effective and general
representation integration method. The proposed LiVLR is lightweight and shows
its superiority on two VideoQA benchmarks, MRSVTT-QA and KnowIT VQA. Extensive
ablation studies demonstrate the effectiveness of LiVLR key components.
- Abstract(参考訳): ビデオ質問回答(Video QA)は,マルチモーダルなビデオコンテンツを理解する上で,与えられた質問に正しく答えることを目的としている。
ビデオ理解の観点からは、ビデオQAフレームワークは、様々な意味レベルでビデオコンテンツを理解し、多様なビデオコンテンツを柔軟に統合し、質問関連コンテンツを蒸留する必要がある。
そこで本研究では,軽量な視覚言語推論フレームワークLiVLRを提案する。
特に、LiVLRは、まずグラフベースの視覚および言語エンコーダを使用して、多義的な視覚および言語表現を得る。
その後、得られた表現は、考案された多様性を意識した視覚言語推論モジュール(DaVL)と統合される。
davlは、異なる種類の表現の違いを考慮し、有効で一般的な表現統合法である質問関連表現を生成する際に、異なる種類の表現の重要性を柔軟に調整することができる。
提案したLiVLRは軽量であり、MRSVTT-QAとKnowIT VQAの2つのベンチマークでその優位性を示している。
広範なアブレーション研究はlivlr鍵成分の有効性を示している。
関連論文リスト
- Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。
提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文 参考訳(メタデータ) (2024-10-06T15:03:22Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - LLMs Meet Long Video: Advancing Long Video Question Answering with An Interactive Visual Adapter in LLMs [22.696090318037925]
長いビデオ理解は、マルチメディアと人工知能の交差において、重要かつ進行中の課題である。
大型言語モデル(LLM)における対話型ビジュアルアダプタ(IVA)を提案する。
論文 参考訳(メタデータ) (2024-02-21T05:56:52Z) - Question Aware Vision Transformer for Multimodal Reasoning [14.188369270753347]
マルチモーダル推論のための質問認識型視覚変換器QA-ViTを提案する。
視覚エンコーダに直接質問認識を埋め込む。
この統合により、仮定された問題に関連性のある画像の側面に焦点を当てた動的視覚的特徴が得られる。
論文 参考訳(メタデータ) (2024-02-08T08:03:39Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。