Fugu-MT 論文翻訳(概要): Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models

論文の概要: Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models

arxiv url: http://arxiv.org/abs/2307.04192v4
Date: Sun, 31 Mar 2024 12:10:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-02 15:54:17.601658
Title: Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models
Title（参考訳）: 効率的なビデオ質問に対する自己適応サンプリング-画像-テキストモデルによる回答
Authors: Wei Han, Hui Chen, Min-Yen Kan, Soujanya Poria,
Abstract要約: ビデオ理解モデルは通常、フレームやクリップの集合をランダムにサンプリングする。本稿では,最多領域フレーム (MDF) と最多命令フレーム (MIF) の2つのフレームサンプリング手法を提案する。
参考スコア（独自算出の注目度）: 41.12711820047315
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Video question-answering is a fundamental task in the field of video understanding. Although current vision--language models (VLMs) equipped with Video Transformers have enabled temporal modeling and yielded superior results, they are at the cost of huge computational power and thus too expensive to deploy in real-time application scenarios. An economical workaround only samples a small portion of frames to represent the main content of that video and tune an image--text model on these sampled frames. Recent video understanding models usually randomly sample a set of frames or clips, regardless of internal correlations between their visual contents, nor their relevance to the problem. We argue that such kinds of aimless sampling may omit the key frames from which the correct answer can be deduced, and the situation gets worse when the sampling sparsity increases, which always happens as the video lengths increase. To mitigate this issue, we propose two frame sampling strategies, namely the most domain frames (MDF) and most implied frames (MIF), to maximally preserve those frames that are most likely vital to the given questions. MDF passively minimizes the risk of key frame omission in a bootstrap manner, while MIS actively searches key frames customized for each video--question pair with the assistance of auxiliary models. The experimental results on three public datasets from three advanced VLMs (CLIP, GIT and All-in-one) demonstrate that our proposed strategies can boost the performance for image-text pretrained models. The source codes pertaining to the method proposed in this paper are publicly available at https://github.com/declare-lab/sas-vqa.
Abstract（参考訳）: ビデオ質問応答はビデオ理解の分野における基本的な課題である。ビデオトランスフォーマーを備えた現在の視覚言語モデル(VLM)では、時間的モデリングが可能であり、優れた結果が得られるが、計算能力の巨大なコストがかかるため、リアルタイムのアプリケーションシナリオにデプロイするにはコストがかかりすぎる。経済的な回避策として,ビデオの主内容を表すフレームのごく一部だけをサンプリングし,これらのサンプルフレーム上で画像テキストモデルをチューニングする手法が提案されている。近年の映像理解モデルでは,視覚的内容間の内部的相関や問題への関連性に関わらず,フレームやクリップの集合をランダムにサンプリングすることが多い。このような目的のないサンプリングは,適切な回答が導出可能なキーフレームを省略する可能性があり,また,サンプリング間隔が常に大きくなると状況が悪化する可能性がある。この問題を緩和するために,最もドメインフレーム(MDF)とほとんどのインプリッドフレーム(MIF)の2つのフレームサンプリング戦略を提案する。 3つの高度なVLM(CLIP, GIT, All-in-one)から得られた3つの公開データセットに対する実験結果から,提案手法が画像テキスト事前学習モデルの性能を向上させることを示す。本論文で提案されている手法に関するソースコードはhttps://github.com/declare-lab/sas-vqa.comで公開されている。

関連論文リスト

Less is More: Token-Efficient Video-QA via Adaptive Frame-Pruning and Semantic Graph Integration [21.69452489173625]
過剰なフレームが文脈の希釈によってパラドックス的に性能を低下させる「レスはそれ以上」現象である。視覚エコー」は「視覚エコー」という時間的冗長性を有する AFP"は、ResNet-50とCLIPの機能空間に適応的な階層的クラスタリングアルゴリズムを用いて、これらのエコーを単一の代表に識別し、マージする。我々の完全なアプローチは、必要なフレームを86.9%まで、合計入力トークンを83.2%まで劇的に削減することを示しています。
論文参考訳（メタデータ） (2025-08-05T11:31:55Z)
Moment Sampling in Video LLMs for Long-Form Video QA [22.638644170177013]
モーメントサンプリング(moment sample)とは、モデルが最も関係のあるフレームを質問の文脈に応じて選択できるモデルに依存しないアプローチである。与えられた質問に最も関係のあるフレームに焦点をあてることで、ビデオLLMにおける長大なビデオQA性能を向上させることができる。
論文参考訳（メタデータ） (2025-06-18T03:23:56Z)
Threading Keyframe with Narratives: MLLMs as Strong Long Video Comprehenders [62.58375366359421]
長いビデオ理解のためのマルチモーダル大言語モデル(MLLM)は依然として難しい問題である。伝統的な一様サンプリングは、無関係な内容の選択につながる。数千フレームの訓練後のMLLMは、かなりの計算負担を課す。本研究では,物語付きスレッディング(Nar-KFC)を提案する。
論文参考訳（メタデータ） (2025-05-30T03:04:28Z)
Adaptive Keyframe Sampling for Long Video Understanding [75.7837692594814]
本稿では、適応鍵フレームサンプリング(AKS)という、単純だが効果的なアルゴリズムを提案する。これはAdaptive Keyframe Sampling (AKS)と呼ばれるプラグインとプレイモジュールを挿入し、ビデオトークンの固定数で有用な情報を最大化することを目的としている。 2つの長いビデオ理解ベンチマークの実験は、AKSが情報的出会いを選択する際にビデオQA精度を改善することを検証する。
論文参考訳（メタデータ） (2025-02-28T17:46:29Z)
VidCtx: Context-aware Video Question Answering with Image Models [15.1350316858766]
VidCtxは、入力フレームからの視覚情報と他のフレームのテキスト記述の両方を統合する、新しいトレーニング不要なビデオQAフレームワークである。実験により、VidCtxはオープンモデルに依存するアプローチ間の競争性能を達成することが示された。
論文参考訳（メタデータ） (2024-12-23T09:26:38Z)
Multimodal Contextualized Support for Enhancing Video Retrieval System [0.0]
本稿では,マルチモーダルデータを抽出し,ビデオ内に複数のフレームから情報を組み込む,新たな検索パイプラインを統合するシステムを提案する。パイプラインは、単一のイメージ内のオブジェクト検出のみに焦点を当てるのではなく、ビデオクリップから推論できるものに焦点を当てて、潜在意味をキャプチャする。
論文参考訳（メタデータ） (2024-12-10T15:20:23Z)
Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering [11.244643114253773]
Video Question(ビデオQA)は、ビデオで観察される情報に基づいて、自然言語の質問に答えることを目的としている。視覚的な入力として疑問クリティカルな瞬間に答えを推論するために,LMMを強制する,弱い教師付きフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-19T14:21:46Z)
Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文参考訳（メタデータ） (2023-09-07T08:12:58Z)
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文参考訳（メタデータ） (2023-06-13T17:52:23Z)
Efficient Cross-Modal Video Retrieval with Meta-Optimized Frames [39.03408879727955]
クロスモーダルなビデオ検索は、テキストを問合せとして与えられた意味のあるビデオを取得することを目的としている。一般的な単純な解決策は、ビデオからViTへの入力として少数のフレームを均一にサンプリングすることである。本稿では,このトレードオフを解消するために,バイレベル最適化プログラムに基づく自動ビデオ圧縮手法を提案する。
論文参考訳（メタデータ） (2022-10-16T05:35:00Z)
Multimodal Frame-Scoring Transformer for Video Summarization [4.266320191208304]
MFST(Multimodal Frame-Scoring Transformer)フレームワークは、視覚的、テキスト、オーディオ機能を利用して、フレームに関するビデオをスコアする。 MFSTフレームワークは、事前に訓練されたエンコーダを用いて、まず各モダリティ特徴(視覚-テキスト-オーディオ)を抽出する。 MFSTは、ビデオテキスト・オーディオ表現を入力として使用し、フレームレベルのスコアを予測するマルチモーダル・フレーム・スコリング・トランスフォーマーを訓練する。
論文参考訳（メタデータ） (2022-07-05T05:14:15Z)
MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文参考訳（メタデータ） (2022-04-18T14:53:33Z)
OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文参考訳（メタデータ） (2022-01-12T09:50:38Z)
Leveraging Local Temporal Information for Multimodal Scene Classification [9.548744259567837]
映像シーン分類モデルは、映像の空間的(ピクセル的に)および時間的(フレーム的に)特性を効果的に捉えなければならない。トークン列が与えられた個々のトークンに対して文脈化された表現を得るように設計された自己注意型トランスフォーマーモデルは、多くのコンピュータビジョンタスクで人気が高まっている。本稿では,ビデオフレーム間の局所的・大域的時間的関係を利用して,各フレームの文脈的表現をより良くする自己注意ブロックを提案する。
論文参考訳（メタデータ） (2021-10-26T19:58:32Z)
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2020-05-13T16:35:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。