論文の概要: Object-Centric Framework for Video Moment Retrieval
- arxiv url: http://arxiv.org/abs/2512.18448v1
- Date: Sat, 20 Dec 2025 17:44:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.339459
- Title: Object-Centric Framework for Video Moment Retrieval
- Title(参考訳): 動画モーメント検索のためのオブジェクト中心フレームワーク
- Authors: Zongyao Li, Yongkang Wong, Satoshi Yamazaki, Jianquan Liu, Mohan Kankanhalli,
- Abstract要約: 既存のモーメント検索手法の多くは、主にグローバルな視覚情報と意味情報をエンコードするフレームレベルの特徴の時間的シーケンスに依存している。
特に、オブジェクトレベルの時間的ダイナミクスは、主に見過ごされ、オブジェクトレベルの推論を必要とするシナリオにおける既存のアプローチを制限する。
提案手法は,まずシーングラフを用いてクエリ関連オブジェクトを抽出し,次にビデオフレームからグラフを抽出して,それらのオブジェクトとその関係を表現する。
シーングラフに基づいて、リッチな視覚情報や意味情報をエンコードするオブジェクトレベルの特徴系列を構築し、時間とともにオブジェクト間の関係時間的ローカライゼーションをモデル化するビデオトラックレット変換器で処理する。
- 参考スコア(独自算出の注目度): 15.916994168542345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing video moment retrieval methods rely on temporal sequences of frame- or clip-level features that primarily encode global visual and semantic information. However, such representations often fail to capture fine-grained object semantics and appearance, which are crucial for localizing moments described by object-oriented queries involving specific entities and their interactions. In particular, temporal dynamics at the object level have been largely overlooked, limiting the effectiveness of existing approaches in scenarios requiring detailed object-level reasoning. To address this limitation, we propose a novel object-centric framework for moment retrieval. Our method first extracts query-relevant objects using a scene graph parser and then generates scene graphs from video frames to represent these objects and their relationships. Based on the scene graphs, we construct object-level feature sequences that encode rich visual and semantic information. These sequences are processed by a relational tracklet transformer, which models spatio-temporal correlations among objects over time. By explicitly capturing object-level state changes, our framework enables more accurate localization of moments aligned with object-oriented queries. We evaluated our method on three benchmarks: Charades-STA, QVHighlights, and TACoS. Experimental results demonstrate that our method outperforms existing state-of-the-art methods across all benchmarks.
- Abstract(参考訳): 既存のビデオモーメント検索手法の多くは、主にグローバルな視覚情報や意味情報をエンコードするフレームレベルの特徴やクリップレベルの特徴の時間的シーケンスに依存している。
しかし、そのような表現は、特定のエンティティとそれらの相互作用を含むオブジェクト指向クエリによって記述されるモーメントのローカライズに不可欠である、きめ細かいオブジェクトのセマンティクスや外観を捉えるのに失敗する。
特に、オブジェクトレベルの時間的ダイナミクスは概ね見過ごされ、詳細なオブジェクトレベルの推論を必要とするシナリオにおける既存のアプローチの有効性が制限されています。
この制限に対処するため,モーメント検索のための新しいオブジェクト指向フレームワークを提案する。
提案手法はまず,シーングラフパーサを用いてクエリ関連オブジェクトを抽出し,映像フレームからシーングラフを生成し,それらのオブジェクトとその関係を表現する。
シーングラフに基づいて、リッチな視覚情報と意味情報をエンコードするオブジェクトレベルの特徴系列を構築する。
これらのシーケンスは、時間とともにオブジェクト間の時空間相関をモデル化するリレーショナル・トラックレット・トランスフォーマーによって処理される。
オブジェクトレベルの状態変化を明示的にキャプチャすることで、我々のフレームワークは、オブジェクト指向クエリと整合したモーメントのより正確なローカライズを可能にします。
提案手法をCharades-STA, QVHighlights, TACoSの3つのベンチマークで評価した。
実験結果から,本手法はすべてのベンチマークにおいて既存の最先端手法よりも優れていることが示された。
関連論文リスト
- Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting [60.58915701973593]
CAT-V(Caption AnyThing in Video)は、オブジェクト中心のビデオキャプションを微粒化するためのトレーニング不要のフレームワークである。
Cat-Vは3つの重要なコンポーネントを統合している: SAMIに基づくフレーム間の正確なオブジェクトセグメンテーションのためのセグメンタ、TRACE-UniVLを動力とするテンポラルアナライザ、Intern-2.5を使用するキャピタ。
我々のフレームワークは、追加のトレーニングデータを必要とすることなく、オブジェクトの属性、アクション、ステータス、インタラクション、環境コンテキストの詳細な時間的記述を生成します。
論文 参考訳(メタデータ) (2025-04-07T22:35:36Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - A Modern Take on Visual Relationship Reasoning for Grasp Planning [10.543168383800532]
本稿では,視覚的リレーショナル推論による把握計画を提案する。
D3GDは、97の異なるカテゴリから最大35のオブジェクトを持つビンピックシーンを含む、新しいテストベッドである。
また、新しいエンドツーエンドのトランスフォーマーベースの依存性グラフ生成モデルであるD3Gを提案する。
論文 参考訳(メタデータ) (2024-09-03T16:30:48Z) - Temporal Collection and Distribution for Referring Video Object
Segmentation [14.886278504056063]
ビデオオブジェクトのセグメンテーションの参照は、自然言語の表現に従って、ビデオシーケンス全体を通して参照をセグメンテーションすることを目的としている。
本稿では,グローバル参照トークンとオブジェクトクエリのシーケンスを同時に維持することを提案する。
提案手法は,すべてのベンチマークにおいて,最先端の手法よりも連続的に,著しく優れることを示す。
論文 参考訳(メタデータ) (2023-09-07T04:22:02Z) - Identity-Consistent Aggregation for Video Object Detection [21.295859014601334]
ビデオオブジェクト検出(VID)では、ビデオからのリッチな時間的コンテキストを活用して、各フレーム内のオブジェクト表現を強化するのが一般的である。
ClipVID(ClipVID)は,微粒化と恒常性を考慮した時間的コンテキストのマイニングに特化して設計されたID一貫性アグリゲーション層を備えたVIDモデルである。
ImageNet VIDデータセット上でのSOTA(State-of-the-art)性能(84.7% mAP)は,従来のSOTAよりも約7倍高速(39.3 fps)で動作している。
論文 参考訳(メタデータ) (2023-08-15T12:30:22Z) - DORi: Discovering Object Relationship for Moment Localization of a
Natural-Language Query in Video [98.54696229182335]
本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。
私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。
時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
論文 参考訳(メタデータ) (2020-10-13T09:50:29Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z) - Evaluating Temporal Queries Over Video Feeds [25.04363138106074]
ビデオフィードにおけるオブジェクトとその共起に関する時間的クエリは、法執行機関からセキュリティ、安全に至るまで、多くのアプリケーションにとって関心がある。
本稿では,オブジェクト検出/追跡,中間データ生成,クエリ評価という3つのレイヤからなるアーキテクチャを提案する。
中間データ生成層における全ての検出対象を整理するために,MFSとSSGという2つの手法を提案する。
また、SSGに対して入力フレームを処理し、クエリ評価とは無関係なオブジェクトやフレームを効率よくプーンするState Traversal (ST)アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-03-02T14:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。