論文の概要: Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering
- arxiv url: http://arxiv.org/abs/2410.09380v1
- Date: Sat, 12 Oct 2024 06:22:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 14:44:04.812604
- Title: Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering
- Title(参考訳): ビデオ質問応答のためのドメイン固有きめ細かいヒューリスティックを用いたビデオ言語基礎モデルの提案
- Authors: Ting Yu, Kunhao Fu, Shuhui Wang, Qingming Huang, Jun Yu,
- Abstract要約: HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
- 参考スコア(独自算出の注目度): 71.62961521518731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Question Answering (VideoQA) represents a crucial intersection between video understanding and language processing, requiring both discriminative unimodal comprehension and sophisticated cross-modal interaction for accurate inference. Despite advancements in multi-modal pre-trained models and video-language foundation models, these systems often struggle with domain-specific VideoQA due to their generalized pre-training objectives. Addressing this gap necessitates bridging the divide between broad cross-modal knowledge and the specific inference demands of VideoQA tasks. To this end, we introduce HeurVidQA, a framework that leverages domain-specific entity-action heuristics to refine pre-trained video-language foundation models. Our approach treats these models as implicit knowledge engines, employing domain-specific entity-action prompters to direct the model's focus toward precise cues that enhance reasoning. By delivering fine-grained heuristics, we improve the model's ability to identify and interpret key entities and actions, thereby enhancing its reasoning capabilities. Extensive evaluations across multiple VideoQA datasets demonstrate that our method significantly outperforms existing models, underscoring the importance of integrating domain-specific knowledge into video-language models for more accurate and context-aware VideoQA.
- Abstract(参考訳): ビデオ質問回答(Video Question Answering, VideoQA)は、ビデオ理解と言語処理の間の重要な交差点であり、正確な推論のために、識別的ユニモーダル理解と洗練された相互モーダル相互作用の両方を必要とする。
マルチモーダルな事前学習モデルやビデオ言語基礎モデルの進歩にもかかわらず、これらのシステムは一般化された事前学習の目的のためにドメイン固有のビデオQAと競合することが多い。
このギャップに対処するには、広義のクロスモーダルな知識と、ビデオQAタスクの特定の推論要求のギャップを埋める必要がある。
この目的のために、ドメイン固有のエンティティアクションヒューリスティックスを活用して、事前学習されたビデオ言語基盤モデルを洗練するフレームワークであるHeurVidQAを紹介する。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
詳細なヒューリスティックスを提供することで、重要なエンティティとアクションを識別および解釈するモデルの能力を改善し、それによって推論能力を向上させる。
複数のビデオQAデータセットにまたがる広範囲な評価結果から,本手法は既存のモデルよりもはるかに優れており,より正確でコンテキストを意識したビデオQAを実現するために,ドメイン固有知識をビデオ言語モデルに統合することの重要性が強調されている。
関連論文リスト
- Multi-Modal interpretable automatic video captioning [1.9874264019909988]
マルチモーダル・コントラッシブ・ロスを訓練した新しいビデオキャプション手法を提案する。
我々のアプローチは、これらのモダリティ間の依存関係を捉えるために設計されており、その結果、より正確で、従って関連するキャプションとなる。
論文 参考訳(メタデータ) (2024-11-11T11:12:23Z) - Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering [53.39158264785098]
ビデオQA(Long-term Video Question Answering)は、視覚的および言語的ブリッジングの課題である。
マルチグラニュラリティ コントラスト クロスモーダル・コラボレーティブ・ジェネレーション・モデル。
論文 参考訳(メタデータ) (2024-10-12T06:21:58Z) - Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。
本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-04-01T17:28:16Z) - RTQ: Rethinking Video-language Understanding Based on Image-text Model [55.278942477715084]
ビデオ言語理解は、非常に複雑なセマンティックな詳細を含んでいるため、ユニークな課題を提示する。
本稿では,これらの課題を同時に解決するRTQという新しいフレームワークを提案する。
本モデルは,ビデオ言語による事前学習がなくても,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-01T04:51:01Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z) - Rethinking Multi-Modal Alignment in Video Question Answering from
Feature and Sample Perspectives [30.666823939595627]
本稿では,ビデオQAにおけるマルチモーダルアライメント問題について,特徴とサンプルの観点から再考する。
我々はヘテロジニアスグラフアーキテクチャを採用し、トラジェクトリレベルとフレームレベルの両方の視覚特徴を言語特徴と整合させる階層的なフレームワークを設計する。
提案手法は, NExT-QAベンチマークにおいて, 最先端モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-04-25T10:42:07Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。