論文の概要: Logic-in-Frames: Dynamic Keyframe Search via Visual Semantic-Logical Verification for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2503.13139v1
- Date: Mon, 17 Mar 2025 13:07:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 16:00:51.220915
- Title: Logic-in-Frames: Dynamic Keyframe Search via Visual Semantic-Logical Verification for Long Video Understanding
- Title(参考訳): Logic-in-Frames:ロングビデオ理解のためのビジュアルセマンティック論理検証による動的キーフレーム探索
- Authors: Weiyu Guo, Ziyang Chen, Shaoguang Wang, Jianxiang He, Yijie Xu, Jinhui Ye, Ying Sun, Hui Xiong,
- Abstract要約: 本稿では,視覚意味論理探索のパラダイムの下で選択を再構成する意味論的検索フレームワークを提案する。
提案手法は,キーフレーム選択の指標を手動でアノテートしたベンチマーク上で,新たなSOTA性能を確立する。
- 参考スコア(独自算出の注目度): 23.022070084937603
- License:
- Abstract: Understanding long video content is a complex endeavor that often relies on densely sampled frame captions or end-to-end feature selectors, yet these techniques commonly overlook the logical relationships between textual queries and visual elements. In practice, computational constraints necessitate coarse frame subsampling, a challenge analogous to ``finding a needle in a haystack.'' To address this issue, we introduce a semantics-driven search framework that reformulates keyframe selection under the paradigm of Visual Semantic-Logical Search. Specifically, we systematically define four fundamental logical dependencies: 1) spatial co-occurrence, 2) temporal proximity, 3) attribute dependency, and 4) causal order. These relations dynamically update frame sampling distributions through an iterative refinement process, enabling context-aware identification of semantically critical frames tailored to specific query requirements. Our method establishes new SOTA performance on the manually annotated benchmark in key-frame selection metrics. Furthermore, when applied to downstream video question-answering tasks, the proposed approach demonstrates the best performance gains over existing methods on LongVideoBench and Video-MME, validating its effectiveness in bridging the logical gap between textual queries and visual-temporal reasoning. The code will be publicly available.
- Abstract(参考訳): 長いビデオコンテンツを理解することは、しばしば密集したフレームキャプションやエンドツーエンドの機能セレクタに依存する複雑な取り組みであるが、これらのテクニックは一般的に、テキストクエリと視覚要素の間の論理的関係を見落としている。
実際には、計算上の制約は粗いフレームのサブサンプリングを必要とする。
この問題に対処するため、我々は、Visual Semantic-Logical Searchのパラダイムの下でキーフレームの選択を再構成するセマンティクス駆動検索フレームワークを導入しました。
具体的には、4つの基本的な論理的依存関係を体系的に定義する。
1)空間的共起
2)時間的近接
3)属性依存,および
4)因果順。
これらの関係は、反復的精製プロセスを通じてフレームサンプリング分布を動的に更新し、特定のクエリ要求に合わせてセマンティッククリティカルフレームのコンテキスト認識を可能にする。
提案手法は,キーフレーム選択の指標を手動でアノテートしたベンチマーク上で,新たなSOTA性能を確立する。
さらに、下流のビデオ質問応答タスクに適用した場合、提案手法は、LongVideoBenchとVideo-MMEの既存の手法よりも優れた性能を示し、テキストクエリと視覚的時間的推論の論理的ギャップを埋めることの有効性を検証した。
コードは公開されます。
関連論文リスト
- Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。
当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文 参考訳(メタデータ) (2025-01-27T10:57:24Z) - The Devil is in Temporal Token: High Quality Video Reasoning Segmentation [68.33080352141653]
ビデオ推論の方法は、ビデオ内のオブジェクトを表現するために単一の特別なトークンに大きく依存する。
エンドツーエンドの動画推論セグメンテーション手法であるVRS-HQを提案する。
提案手法の強い時間的推論とセグメンテーション能力について検討した。
論文 参考訳(メタデータ) (2025-01-15T03:17:24Z) - VidCtx: Context-aware Video Question Answering with Image Models [15.1350316858766]
VidCtxは、入力フレームからの視覚情報と他のフレームのテキスト記述の両方を統合する、新しいトレーニング不要なビデオQAフレームワークである。
実験により、VidCtxはオープンモデルに依存するアプローチ間の競争性能を達成することが示された。
論文 参考訳(メタデータ) (2024-12-23T09:26:38Z) - Temporal Saliency Query Network for Efficient Video Recognition [82.52760040577864]
ビデオ認識は、インターネットやモバイルデバイス上でのマルチメディアデータの爆発的な成長に関するホットスポット研究のトピックである。
既存の方法の多くは、クラス固有のサリエンシスコアを意識せずに、サリエントフレームを選択する。
そこで我々は,Saliency Query (TSQ) 機構を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:23:34Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - Temporal Query Networks for Fine-grained Video Understanding [88.9877174286279]
我々はこれをクエリ応答機構にキャストし、各クエリが特定の質問に対処し、独自の応答ラベルセットを持つ。
本手法は,細粒度動作分類のためのファインガイムおよびダイビング48ベンチマークを広範囲に評価し,rgb機能のみを用いて最先端の動作分類を克服した。
論文 参考訳(メタデータ) (2021-04-19T17:58:48Z) - Tree-Augmented Cross-Modal Encoding for Complex-Query Video Retrieval [98.62404433761432]
インターネット上のユーザ生成ビデオの急速な増加により、テキストベースのビデオ検索システムの必要性が高まっている。
従来の手法は主に単純なクエリによる検索における概念に基づくパラダイムを好んでいる。
木を増設したクロスモーダルを提案する。
クエリの言語構造とビデオの時間表現を共同で学習する手法。
論文 参考訳(メタデータ) (2020-07-06T02:50:27Z) - Near-duplicate video detection featuring coupled temporal and perceptual
visual structures and logical inference based matching [0.0]
i) 時間的・知覚的な視覚的特徴を統合したインデックスとクエリシグネチャに基づく,ほぼ重複した映像検出のためのアーキテクチャを提案する。
そこで本研究では,N-gramスライディングウインドウプロセスと理論的に健全な格子構造を結合することで,論理的推論に基づく検索モデルをインスタンス化する手法を提案する。
論文 参考訳(メタデータ) (2020-05-15T04:45:52Z) - Video Monitoring Queries [16.7214343633499]
ビデオストリーム上での対話型宣言型クエリ処理の問題について検討する。
特定のタイプのオブジェクトを含むクエリを高速化するために、近似フィルタのセットを導入します。
フィルタは、クエリ述語が真実であれば素早く評価でき、フレームのさらなる分析を進めることができる。
論文 参考訳(メタデータ) (2020-02-24T20:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。