論文の概要: GEB+: A Benchmark for Generic Event Boundary Captioning, Grounding and Retrieval
- arxiv url: http://arxiv.org/abs/2204.00486v5
- Date: Sat, 01 Feb 2025 16:16:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:54:53.464024
- Title: GEB+: A Benchmark for Generic Event Boundary Captioning, Grounding and Retrieval
- Title(参考訳): GEB+: ジェネリックイベント境界キャプション、グラウンド、検索のためのベンチマーク
- Authors: Yuxuan Wang, Difei Gao, Licheng Yu, Stan Weixian Lei, Matt Feiszli, Mike Zheng Shou,
- Abstract要約: Kinetic-GEB+と呼ばれる新しいデータセットを導入する。
データセットは、12Kビデオのステータス変更を記述するキャプションに関連する170万以上のバウンダリで構成されている。
現状の変化を通じて,よりきめ細かな,堅牢で,人間的な映像理解を支援する3つのタスクを提案する。
- 参考スコア(独自算出の注目度): 40.399017565653196
- License:
- Abstract: Cognitive science has shown that humans perceive videos in terms of events separated by the state changes of dominant subjects. State changes trigger new events and are one of the most useful among the large amount of redundant information perceived. However, previous research focuses on the overall understanding of segments without evaluating the fine-grained status changes inside. In this paper, we introduce a new dataset called Kinetic-GEB+. The dataset consists of over 170k boundaries associated with captions describing status changes in the generic events in 12K videos. Upon this new dataset, we propose three tasks supporting the development of a more fine-grained, robust, and human-like understanding of videos through status changes. We evaluate many representative baselines in our dataset, where we also design a new TPD (Temporal-based Pairwise Difference) Modeling method for visual difference and achieve significant performance improvements. Besides, the results show there are still formidable challenges for current methods in the utilization of different granularities, representation of visual difference, and the accurate localization of status changes. Further analysis shows that our dataset can drive developing more powerful methods to understand status changes and thus improve video level comprehension. The dataset including both videos and boundaries is available at https://yuxuan-w.github.io/GEB-plus/
- Abstract(参考訳): 認知科学は、人間が支配的な主題の国家的変化によって切り離された出来事の観点でビデオを認識することを示した。
状態の変化によって新しいイベントが引き起こされ、認識される大量の冗長な情報の中で最も有用なもののひとつとなる。
しかし、従来の研究では、内部の微細な状態変化を評価せずにセグメント全体の理解に焦点を当てていた。
本稿では,Kineetic-GEB+という新しいデータセットを提案する。
データセットは、12Kビデオにおけるジェネリックイベントのステータス変更を記述するキャプションに関連する170万以上のバウンダリで構成されている。
本データセットでは,よりきめ細かな,頑健で,人間的な映像理解を支援する3つのタスクを提案する。
我々はデータセットにおける多くの代表的ベースラインを評価し、視覚的差分のための新しいPD(Temporal-based Pairwise difference)モデリング手法を設計し、大幅な性能改善を実現した。
さらに, 異なる粒度の利用, 視覚的差異の表現, 状態変化の正確な局所化など, 現状の手法には依然として重大な課題があることが示された。
さらに分析した結果,我々のデータセットは,状況変化を理解し,映像レベルの理解を改善するために,より強力な手法を開発することができることがわかった。
ビデオとバウンダリの両方を含むデータセットは、https://yuxuan-w.github.io/GEB-plus/で公開されている。
関連論文リスト
- Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - Anticipating Object State Changes [0.8428703116072809]
提案するフレームワークは、近い将来に発生するオブジェクトの状態変化を、まだ見つからない人間の行動によって予測する。
これは、最近の視覚情報を表す学習された視覚機能と、過去のオブジェクトの状態変化とアクションを表す自然言語(NLP)機能を統合する。
提案手法は,映像理解システムの予測性能を高めるために,映像と言語的手がかりを統合する可能性も示している。
論文 参考訳(メタデータ) (2024-05-21T13:40:30Z) - OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文 参考訳(メタデータ) (2024-02-27T01:48:19Z) - MS-Former: Memory-Supported Transformer for Weakly Supervised Change
Detection with Patch-Level Annotations [50.79913333804232]
弱い教師付き変化検出のためのメモリ支援トランス (MS-Former) を提案する。
MS-Former は双方向注意ブロック (BAB) とパッチレベルの監視スキーム (PSS) から構成される。
3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-11-16T09:57:29Z) - Visual Reasoning: from State to Transformation [80.32402545546209]
既存の視覚的推論タスクは重要な要素、すなわち変換を無視している。
本稿では,新しいテキスト変換駆動型視覚推論(TVR)タスクを提案する。
現状のビジュアル推論モデルは,Basic上では良好に機能するが,イベント,ビュー,TRANCOにおける人間レベルのインテリジェンスには程遠いことを示す。
論文 参考訳(メタデータ) (2023-05-02T14:24:12Z) - Video Event Extraction via Tracking Visual States of Arguments [72.54932474653444]
本稿では,関連するすべての議論の視覚的状態の変化を追跡することによって,ビデオイベントを検出する新しいフレームワークを提案する。
引数の視覚状態の変化を捉えるために、オブジェクト内のピクセルの変化、オブジェクトの変位、複数の引数間の相互作用に分解する。
論文 参考訳(メタデータ) (2022-11-03T13:12:49Z) - What's in a Caption? Dataset-Specific Linguistic Diversity and Its
Effect on Visual Description Models and Metrics [14.624063829492764]
キャプションの多様性は、ジェネリックキャプションの生成の背後にある主要な要因であることがわかった。
現状のモデルでは、現代のメトリクスの根拠となる真実のキャプションよりも優れています。
論文 参考訳(メタデータ) (2022-05-12T17:55:08Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。