論文の概要: An empirical study of the effect of video encoders on Temporal Video Grounding
- arxiv url: http://arxiv.org/abs/2510.17007v1
- Date: Sun, 19 Oct 2025 21:10:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.245589
- Title: An empirical study of the effect of video encoders on Temporal Video Grounding
- Title(参考訳): ビデオエンコーダが時間的映像グラウンディングに及ぼす影響に関する実証的研究
- Authors: Ignacio M. De la Jara, Cristian Rodriguez-Opazo, Edison Marrese-Taylor, Felipe Bravo-Marquez,
- Abstract要約: 本稿では,古典建築における異なる映像特徴が及ぼす影響について,実証的研究を行う。
その結果,ビデオエンコーダを単に変更するだけで,モデルの性能に有意な差が認められた。
- 参考スコア(独自算出の注目度): 12.414978847277853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal video grounding is a fundamental task in computer vision, aiming to localize a natural language query in a long, untrimmed video. It has a key role in the scientific community, in part due to the large amount of video generated every day. Although we find extensive work in this task, we note that research remains focused on a small selection of video representations, which may lead to architectural overfitting in the long run. To address this issue, we propose an empirical study to investigate the impact of different video features on a classical architecture. We extract features for three well-known benchmarks, Charades-STA, ActivityNet-Captions and YouCookII, using video encoders based on CNNs, temporal reasoning and transformers. Our results show significant differences in the performance of our model by simply changing the video encoder, while also revealing clear patterns and errors derived from the use of certain features, ultimately indicating potential feature complementarity.
- Abstract(参考訳): 時間的ビデオグラウンドティングはコンピュータビジョンの基本的な課題であり、長い、トリミングされていないビデオで自然言語クエリーをローカライズすることを目的としている。
科学界では重要な役割を担っている。
この課題には広範な成果があるが、ビデオ表現の小さな選択に焦点が当てられている研究は、長期的にはアーキテクチャの過度なオーバーフィットにつながる可能性があることに留意する。
この問題に対処するため,古典建築における異なる映像特徴の影響を実証的に検討する。
我々は、CNN、時間的推論、変換器に基づくビデオエンコーダを用いて、よく知られた3つのベンチマーク、Charades-STA、ActivityNet-Captions、YouCookIIの特徴を抽出する。
その結果,ビデオエンコーダを単に変更するだけで,特定の特徴の使用による明らかなパターンや誤りが明らかになり,潜在的な特徴の相補性が示唆された。
関連論文リスト
- An Empirical Study on How Video-LLMs Answer Video Questions [41.97630658989303]
Video Large Language Models (Video-LLMs) は、ビデオ質問に答える強力な機能を示している。
私たちの知る限り、ビデオ-LLMが内部でどのように処理し、ビデオコンテンツを理解するかを体系的に明らかにしたのは、これが初めてです。
論文 参考訳(メタデータ) (2025-08-21T08:42:35Z) - VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM [81.15525024145697]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は近年, 一般的なビデオ理解において顕著な能力を示した。
しかし、それらは主に全体論的理解に焦点を当て、きめ細かい空間的・時間的詳細を捉えるのに苦労している。
我々は,高精細度空間時間映像理解のためのビデオLLMを実現するために,VideoRefer Suiteを導入した。
論文 参考訳(メタデータ) (2024-12-31T18:56:46Z) - Multi-Scale Contrastive Learning for Video Temporal Grounding [42.180296672043404]
自然言語クエリに関連する映像モーメントをローカライズする時間的グラウンドリングは、視覚言語学習とビデオ理解の中核的な問題である。
本稿ではビデオモーメント間の有能な意味を捉えるための対照的な学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-10T03:34:56Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - Just a Glimpse: Rethinking Temporal Information for Video Continual
Learning [58.7097258722291]
個別フレームと単一フレームに基づく効果的なビデオ連続学習のための新しい再生機構を提案する。
極端な記憶の制約の下では、ビデオの多様性は時間的情報よりも重要な役割を果たす。
提案手法は最先端性能を実現し,従来の最先端性能を最大21.49%向上させる。
論文 参考訳(メタデータ) (2023-05-28T19:14:25Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Highlight Timestamp Detection Model for Comedy Videos via Multimodal
Sentiment Analysis [1.6181085766811525]
本研究では,この分野での最先端性能を得るためのマルチモーダル構造を提案する。
マルチモーダルビデオ理解のためのベンチマークをいくつか選択し、最適な性能を求めるのに最適なモデルを適用した。
論文 参考訳(メタデータ) (2021-05-28T08:39:19Z) - Temporal-Spatial Feature Pyramid for Video Saliency Detection [2.578242050187029]
ビデオサリエンシー検出のための3D完全畳み込みエンコーダデコーダアーキテクチャを提案する。
私たちのモデルはシンプルかつ効果的で、リアルタイムで実行できます。
論文 参考訳(メタデータ) (2021-05-10T09:14:14Z) - Video Exploration via Video-Specific Autoencoders [60.256055890647595]
ヒト制御可能なビデオ探索を可能にするビデオ固有オートエンコーダを提案する。
特定のビデオの複数のフレームで訓練された単純なオートエンコーダは、さまざまなビデオ処理および編集タスクを実行できることを観察します。
論文 参考訳(メタデータ) (2021-03-31T17:56:13Z) - Dense Interaction Learning for Video-based Person Re-identification [75.03200492219003]
ビデオベースの人物再ID問題に取り組むために,Dense Interaction Learning (DenseIL) というハイブリッドフレームワークを提案する。
DenseILにはCNNエンコーダとDense Interaction (DI)デコーダが含まれている。
当社の実験は、複数の標準ビデオベースの再IDデータセットにおけるすべての最先端の手法を一貫して大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-16T12:22:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。