論文の概要: MDP3: A Training-free Approach for List-wise Frame Selection in Video-LLMs
- arxiv url: http://arxiv.org/abs/2501.02885v1
- Date: Mon, 06 Jan 2025 09:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:08:25.866688
- Title: MDP3: A Training-free Approach for List-wise Frame Selection in Video-LLMs
- Title(参考訳): MDP3:ビデオLLMにおけるリストワイドフレーム選択のためのトレーニング不要アプローチ
- Authors: Hui Sun, Shiyin Lu, Huanyu Wang, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, Ming Li,
- Abstract要約: ビデオ大言語モデル(ビデオ-LLM)は、ビデオの理解に大きな進歩をもたらした。
本稿では,クエリ関連性,リストワイド多様性,シーケンシャル性という,フレーム選択の3つの重要な原則に従わなければならないことを強調する。
フレーム選択のための動的プログラミング(MDP3)を用いたマルコフ決定点プロセスを提案する。
- 参考スコア(独自算出の注目度): 30.09796135965811
- License:
- Abstract: Video large language models (Video-LLMs) have made significant progress in understanding videos. However, processing multiple frames leads to lengthy visual token sequences, presenting challenges such as the limited context length cannot accommodate the entire video, and the inclusion of irrelevant frames hinders visual perception. Hence, effective frame selection is crucial. This paper emphasizes that frame selection should follow three key principles: query relevance, list-wise diversity, and sequentiality. Existing methods, such as uniform frame sampling and query-frame matching, do not capture all of these principles. Thus, we propose Markov decision determinantal point process with dynamic programming (MDP3) for frame selection, a training-free and model-agnostic method that can be seamlessly integrated into existing Video-LLMs. Our method first estimates frame similarities conditioned on the query using a conditional Gaussian kernel within the reproducing kernel Hilbert space~(RKHS). We then apply the determinantal point process~(DPP) to the similarity matrix to capture both query relevance and list-wise diversity. To incorporate sequentiality, we segment the video and apply DPP within each segment, conditioned on the preceding segment selection, modeled as a Markov decision process~(MDP) for allocating selection sizes across segments. Theoretically, MDP3 provides a \((1 - 1/e)\)-approximate solution to the NP-hard list-wise frame selection problem with pseudo-polynomial time complexity, demonstrating its efficiency. Empirically, MDP3 significantly outperforms existing methods, verifying its effectiveness and robustness.
- Abstract(参考訳): ビデオ大言語モデル(ビデオ-LLM)は、ビデオの理解に大きな進歩をもたらした。
しかし、複数のフレームを処理すると、長い視覚的トークンシーケンスが発生し、制限されたコンテキスト長のような課題がビデオ全体を満たすことができず、無関係なフレームを含めることによって視覚的知覚が妨げられる。
したがって、効果的なフレーム選択が不可欠である。
本稿では, クエリ関連性, リストワイド多様性, シーケンシャル性という, フレーム選択の3つの原則に従わなければならないことを強調する。
統一フレームサンプリングやクエリフレームマッチングといった既存の手法は、これらの原則をすべて捉えていない。
そこで本稿では,フレーム選択のための動的プログラミング(MDP3)を用いたマルコフ決定決定点プロセスを提案する。
提案手法はまず,再現カーネルHilbert空間~(RKHS)内の条件付きガウスカーネルを用いて,クエリ上で条件付きフレームの類似性を推定する。
次に、行列点プロセス~(DPP)を類似度行列に適用し、クエリ関連性とリストワイドの多様性の両方を捉える。
逐次性を組み込むために,ビデオのセグメント化を行い,各セグメントにDPPを適用し,前回のセグメント選択を条件とし,セグメント間の選択サイズを割り当てるためのマルコフ決定プロセス~(MDP)をモデル化する。
理論的には、MDP3はNP-ハードリストのフレーム選択問題に対する((1 - 1/e)\)-近似解を提供し、その効率性を証明している。
経験的に、MDP3は既存の方法よりも優れ、その有効性と堅牢性を検証する。
関連論文リスト
- Exploring the Design Space of Visual Context Representation in Video MLLMs [102.11582556690388]
ビデオマルチモーダル大言語モデル(MLLM)は、様々な下流タスクでビデオセマンティクスを理解する際、顕著な能力を示した。
ビジュアルコンテキスト表現は、ビデオからフレームを選択し、フレームからトークンを更に選択するスキームを指す。
本稿では,視覚的文脈表現のための設計空間について検討し,より効率的な表現方式を見出すことにより,映像MLLMの性能向上を目指す。
論文 参考訳(メタデータ) (2024-10-17T15:59:52Z) - End-to-End Video Question Answering with Frame Scoring Mechanisms and Adaptive Sampling [43.024232182899354]
そこで我々は,VidF4を提案する。VidF4は,ビデオQAを効果的かつ効率的に選択するためのフレーム選択戦略を備えた,新しいビデオQAフレームワークである。
本稿では,ビデオ上での質問に対する各フレームの重要性を評価するために,質問関連性とフレーム間類似性の両方を考慮した3つのフレーム照合機構を提案する。
広く採用されている3つのベンチマークによる実験結果から,我々のモデルは既存のビデオQA手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-07-21T04:09:37Z) - Video Frame Interpolation with Many-to-many Splatting and Spatial
Selective Refinement [83.60486465697318]
本稿では,フレームを効率的に補間するM2Mスプレイティングフレームワークを提案する。
入力フレームペアごとに、M2Mは任意の数のフレーム間を補間する際の計算オーバーヘッドが極小である。
フレキシブルな空間選択リファインメント(Spatial Selective Refinement)コンポーネントを導入して,M2M++フレームワークを拡張した。
論文 参考訳(メタデータ) (2023-10-29T09:09:32Z) - Neighbor Correspondence Matching for Flow-based Video Frame Synthesis [90.14161060260012]
フローベースフレーム合成のための近傍対応マッチング(NCM)アルゴリズムを提案する。
NCMは現在のフレームに依存しない方法で実行され、各ピクセルの時空間近傍でマルチスケールの対応を確立する。
粗いスケールのモジュールは、近隣の対応を利用して大きな動きを捉えるように設計されている。
論文 参考訳(メタデータ) (2022-07-14T09:17:00Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z) - Few-Shot Action Recognition with Compromised Metric via Optimal
Transport [31.834843714684343]
少数の画像分類の広い研究にもかかわらず、少数のアクション認識はまだ成熟していません。
これらのアルゴリズムをアクション認識に適用する主な障害の1つは、ビデオの複雑な構造です。
これら2つのソリューションの利点を組み合わせるために、CMOT(Compromised Metric via Optimal Transport)を提案します。
論文 参考訳(メタデータ) (2021-04-08T12:42:05Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。