Fugu-MT 論文翻訳(概要): Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering

論文の概要: Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering

arxiv url: http://arxiv.org/abs/2410.09380v1
Date: Sat, 12 Oct 2024 06:22:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 14:44:04.812604
Title: Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering
Title（参考訳）: ビデオ質問応答のためのドメイン固有きめ細かいヒューリスティックを用いたビデオ言語基礎モデルの提案
Authors: Ting Yu, Kunhao Fu, Shuhui Wang, Qingming Huang, Jun Yu,
Abstract要約: HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
参考スコア（独自算出の注目度）: 71.62961521518731
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video Question Answering (VideoQA) represents a crucial intersection between video understanding and language processing, requiring both discriminative unimodal comprehension and sophisticated cross-modal interaction for accurate inference. Despite advancements in multi-modal pre-trained models and video-language foundation models, these systems often struggle with domain-specific VideoQA due to their generalized pre-training objectives. Addressing this gap necessitates bridging the divide between broad cross-modal knowledge and the specific inference demands of VideoQA tasks. To this end, we introduce HeurVidQA, a framework that leverages domain-specific entity-action heuristics to refine pre-trained video-language foundation models. Our approach treats these models as implicit knowledge engines, employing domain-specific entity-action prompters to direct the model's focus toward precise cues that enhance reasoning. By delivering fine-grained heuristics, we improve the model's ability to identify and interpret key entities and actions, thereby enhancing its reasoning capabilities. Extensive evaluations across multiple VideoQA datasets demonstrate that our method significantly outperforms existing models, underscoring the importance of integrating domain-specific knowledge into video-language models for more accurate and context-aware VideoQA.
Abstract（参考訳）: ビデオ質問回答(Video Question Answering, VideoQA)は、ビデオ理解と言語処理の間の重要な交差点であり、正確な推論のために、識別的ユニモーダル理解と洗練された相互モーダル相互作用の両方を必要とする。マルチモーダルな事前学習モデルやビデオ言語基礎モデルの進歩にもかかわらず、これらのシステムは一般化された事前学習の目的のためにドメイン固有のビデオQAと競合することが多い。このギャップに対処するには、広義のクロスモーダルな知識と、ビデオQAタスクの特定の推論要求のギャップを埋める必要がある。この目的のために、ドメイン固有のエンティティアクションヒューリスティックスを活用して、事前学習されたビデオ言語基盤モデルを洗練するフレームワークであるHeurVidQAを紹介する。我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。詳細なヒューリスティックスを提供することで、重要なエンティティとアクションを識別および解釈するモデルの能力を改善し、それによって推論能力を向上させる。複数のビデオQAデータセットにまたがる広範囲な評価結果から,本手法は既存のモデルよりもはるかに優れており,より正確でコンテキストを意識したビデオQAを実現するために,ドメイン固有知識をビデオ言語モデルに統合することの重要性が強調されている。

関連論文リスト

Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.32948112203228]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。 Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文参考訳（メタデータ） (2025-10-06T17:10:44Z)
Chain of Questions: Guiding Multimodal Curiosity in Language Models [2.0180882714261568]
質問の連鎖 (Chain of Questions, CoQ) は好奇心を駆使した推論手法であり, マルチモーダル言語モデルにより, 周辺環境に関する対象とする質問を生成する。我々は、WebGPT、ScienceQA、AVSD、ScanQAデータセットを統合した新しいマルチモーダルベンチマークデータセットについて、我々のフレームワークを評価する。
論文参考訳（メタデータ） (2025-08-06T11:42:54Z)
Can Video LLMs Refuse to Answer? Alignment for Answerability in Video Large Language Models [21.966865098520277]
ビデオ大言語モデル(Video-LLM)は、主にビデオコンテンツから直接生成された質問に基づいて訓練される。現実世界のシナリオでは、ユーザーはしばしば、ビデオの情報範囲を超えて広がる質問をする。本稿では,ビデオLLMと,その映像に基づいて質問の関連性を評価するためのフレームワークである応答可能性のアライメントを提案する。
論文参考訳（メタデータ） (2025-07-07T13:19:43Z)
Admitting Ignorance Helps the Video Question Answering Models to Answer [82.22149677979189]
モデルはしばしばショートカットを定め、結果として質問と回答の間に急激な相関関係が生じる、と我々は主張する。そこで本研究では,モデルに不明瞭さを認めざるを得ない新たな学習手法を提案する。実際に、我々のフレームワークに最先端のモデルを統合することで、その有効性を検証する。
論文参考訳（メタデータ） (2025-01-15T12:44:52Z)
Foundation Models and Adaptive Feature Selection: A Synergistic Approach to Video Question Answering [13.294004180200496]
我々は,マルチモーダルな知識をよりよく統合する3つの主要なイノベーションを取り入れたローカル・グローバル質問意識ビデオ埋め込み(LGQAVE)を紹介した。 LGQAVEは、質問に関する最も関連性の高いフレームを正確に識別するクロスアテンション機構を利用することで、従来のアドホックフレームサンプリングを越えている。追加のクロスアテンションモジュールは、これらのローカルおよびグローバルな埋め込みを統合して、最終ビデオ埋め込みを生成する。
論文参考訳（メタデータ） (2024-12-12T12:39:07Z)
Multi-Modal interpretable automatic video captioning [1.9874264019909988]
マルチモーダル・コントラッシブ・ロスを訓練した新しいビデオキャプション手法を提案する。我々のアプローチは、これらのモダリティ間の依存関係を捉えるために設計されており、その結果、より正確で、従って関連するキャプションとなる。
論文参考訳（メタデータ） (2024-11-11T11:12:23Z)
Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering [53.39158264785098]
ビデオQA(Long-term Video Question Answering)は、視覚的および言語的ブリッジングの課題である。マルチグラニュラリティコントラストクロスモーダル・コラボレーティブ・ジェネレーション・モデル。
論文参考訳（メタデータ） (2024-10-12T06:21:58Z)
Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文参考訳（メタデータ） (2024-04-01T17:28:16Z)
RTQ: Rethinking Video-language Understanding Based on Image-text Model [55.278942477715084]
ビデオ言語理解は、非常に複雑なセマンティックな詳細を含んでいるため、ユニークな課題を提示する。本稿では,これらの課題を同時に解決するRTQという新しいフレームワークを提案する。本モデルは,ビデオ言語による事前学習がなくても,優れた性能を示す。
論文参考訳（メタデータ） (2023-12-01T04:51:01Z)
Collaborative Reasoning on Multi-Modal Semantic Graphs for Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文参考訳（メタデータ） (2022-10-22T14:45:29Z)
Rethinking Multi-Modal Alignment in Video Question Answering from Feature and Sample Perspectives [30.666823939595627]
本稿では,ビデオQAにおけるマルチモーダルアライメント問題について,特徴とサンプルの観点から再考する。我々はヘテロジニアスグラフアーキテクチャを採用し、トラジェクトリレベルとフレームレベルの両方の視覚特徴を言語特徴と整合させる階層的なフレームワークを設計する。提案手法は, NExT-QAベンチマークにおいて, 最先端モデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2022-04-25T10:42:07Z)
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2020-05-13T16:35:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。