論文の概要: An empirical study of the effect of video encoders on Temporal Video Grounding
- arxiv url: http://arxiv.org/abs/2510.17007v1
- Date: Sun, 19 Oct 2025 21:10:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.245589
- Title: An empirical study of the effect of video encoders on Temporal Video Grounding
- Title(参考訳): ビデオエンコーダが時間的映像グラウンディングに及ぼす影響に関する実証的研究
- Authors: Ignacio M. De la Jara, Cristian Rodriguez-Opazo, Edison Marrese-Taylor, Felipe Bravo-Marquez,
- Abstract要約: 本稿では,古典建築における異なる映像特徴が及ぼす影響について,実証的研究を行う。
その結果,ビデオエンコーダを単に変更するだけで,モデルの性能に有意な差が認められた。
- 参考スコア(独自算出の注目度): 12.414978847277853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal video grounding is a fundamental task in computer vision, aiming to localize a natural language query in a long, untrimmed video. It has a key role in the scientific community, in part due to the large amount of video generated every day. Although we find extensive work in this task, we note that research remains focused on a small selection of video representations, which may lead to architectural overfitting in the long run. To address this issue, we propose an empirical study to investigate the impact of different video features on a classical architecture. We extract features for three well-known benchmarks, Charades-STA, ActivityNet-Captions and YouCookII, using video encoders based on CNNs, temporal reasoning and transformers. Our results show significant differences in the performance of our model by simply changing the video encoder, while also revealing clear patterns and errors derived from the use of certain features, ultimately indicating potential feature complementarity.
- Abstract(参考訳): 時間的ビデオグラウンドティングはコンピュータビジョンの基本的な課題であり、長い、トリミングされていないビデオで自然言語クエリーをローカライズすることを目的としている。
科学界では重要な役割を担っている。
この課題には広範な成果があるが、ビデオ表現の小さな選択に焦点が当てられている研究は、長期的にはアーキテクチャの過度なオーバーフィットにつながる可能性があることに留意する。
この問題に対処するため,古典建築における異なる映像特徴の影響を実証的に検討する。
我々は、CNN、時間的推論、変換器に基づくビデオエンコーダを用いて、よく知られた3つのベンチマーク、Charades-STA、ActivityNet-Captions、YouCookIIの特徴を抽出する。
その結果,ビデオエンコーダを単に変更するだけで,特定の特徴の使用による明らかなパターンや誤りが明らかになり,潜在的な特徴の相補性が示唆された。
関連論文リスト
- An Empirical Study on How Video-LLMs Answer Video Questions [41.97630658989303]
Video Large Language Models (Video-LLMs) は、ビデオ質問に答える強力な機能を示している。
私たちの知る限り、ビデオ-LLMが内部でどのように処理し、ビデオコンテンツを理解するかを体系的に明らかにしたのは、これが初めてです。
論文 参考訳(メタデータ) (2025-08-21T08:42:35Z) - VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM [81.15525024145697]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は近年, 一般的なビデオ理解において顕著な能力を示した。
しかし、それらは主に全体論的理解に焦点を当て、きめ細かい空間的・時間的詳細を捉えるのに苦労している。
我々は,高精細度空間時間映像理解のためのビデオLLMを実現するために,VideoRefer Suiteを導入した。
論文 参考訳(メタデータ) (2024-12-31T18:56:46Z) - Multi-Scale Contrastive Learning for Video Temporal Grounding [42.180296672043404]
自然言語クエリに関連する映像モーメントをローカライズする時間的グラウンドリングは、視覚言語学習とビデオ理解の中核的な問題である。
本稿ではビデオモーメント間の有能な意味を捉えるための対照的な学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-10T03:34:56Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Temporal-Spatial Feature Pyramid for Video Saliency Detection [2.578242050187029]
ビデオサリエンシー検出のための3D完全畳み込みエンコーダデコーダアーキテクチャを提案する。
私たちのモデルはシンプルかつ効果的で、リアルタイムで実行できます。
論文 参考訳(メタデータ) (2021-05-10T09:14:14Z) - Video Exploration via Video-Specific Autoencoders [60.256055890647595]
ヒト制御可能なビデオ探索を可能にするビデオ固有オートエンコーダを提案する。
特定のビデオの複数のフレームで訓練された単純なオートエンコーダは、さまざまなビデオ処理および編集タスクを実行できることを観察します。
論文 参考訳(メタデータ) (2021-03-31T17:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。