論文の概要: Generic Event Boundary Captioning: A Benchmark for Status Changes
Understanding
- arxiv url: http://arxiv.org/abs/2204.00486v1
- Date: Fri, 1 Apr 2022 14:45:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 17:14:29.972537
- Title: Generic Event Boundary Captioning: A Benchmark for Status Changes
Understanding
- Title(参考訳): ジェネリックイベント境界キャプション:状態変化の理解のためのベンチマーク
- Authors: Yuxuan Wang, Difei Gao, Licheng Yu, Stan Weixian Lei, Matt Feiszli,
Mike Zheng Shou
- Abstract要約: Kinetic-GEBC(Generic Event Boundary Captioning)と呼ばれる新しいデータセットを導入する。
データセットは、12Kビデオのステータス変更を記述するキャプションに関連する170万以上のバウンダリで構成されている。
現状の変化を通じて,よりきめ細かな,堅牢で,人間的な映像理解を支援する3つのタスクを提案する。
- 参考スコア(独自算出の注目度): 22.618840285782127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cognitive science has shown that humans perceive videos in terms of events
separated by state changes of dominant subjects. State changes trigger new
events and are one of the most useful among the large amount of redundant
information perceived. However, previous research focuses on the overall
understanding of segments without evaluating the fine-grained status changes
inside. In this paper, we introduce a new dataset called Kinetic-GEBC (Generic
Event Boundary Captioning). The dataset consists of over 170k boundaries
associated with captions describing status changes in the generic events in 12K
videos. Upon this new dataset, we propose three tasks supporting the
development of a more fine-grained, robust, and human-like understanding of
videos through status changes. We evaluate many representative baselines in our
dataset, where we also design a new TPD (Temporal-based Pairwise Difference)
Modeling method for current state-of-the-art backbones and achieve significant
performance improvements. Besides, the results show there are still formidable
challenges for current methods in the utilization of different granularities,
representation of visual difference, and the accurate localization of status
changes. Further analysis shows that our dataset can drive developing more
powerful methods to understand status changes and thus improve video level
comprehension.
- Abstract(参考訳): 認知科学は、人間が支配的な被験者の状態変化によって分離された出来事の観点からビデオを認識することを示した。
状態の変化は新しいイベントを引き起こし、知覚される大量の冗長な情報の中で最も有用である。
しかし、従来の研究では、内部の微細な状態変化を評価せずにセグメント全体の理解に焦点を当てていた。
本稿では,Kineetic-GEBC(Generic Event Boundary Captioning)と呼ばれる新しいデータセットを提案する。
データセットは、12Kビデオにおけるジェネリックイベントの状態変化を記述するキャプションに関連する170万以上のバウンダリで構成されている。
この新しいデータセットでは,よりきめ細かな,堅牢で,人間的な映像理解を支援する3つのタスクを,ステータス変更を通じて提案する。
我々はデータセットの多くの代表的ベースラインを評価し、現在の最先端のバックボーンに対する新しいPD(Temporal-based Pairwise difference)モデリング手法を設計し、大幅な性能改善を実現した。
さらに, 異なる粒度の利用, 視覚的差異の表現, 状態変化の正確な局所化など, 現状の手法には依然として重大な課題があることが示された。
さらに分析した結果,我々のデータセットは,状況変化を理解するためのより強力な手法の開発を促進し,ビデオレベルの理解を改善することができることがわかった。
関連論文リスト
- Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - Anticipating Object State Changes [0.8428703116072809]
提案するフレームワークは、近い将来に発生するオブジェクトの状態変化を、まだ見つからない人間の行動によって予測する。
これは、最近の視覚情報を表す学習された視覚機能と、過去のオブジェクトの状態変化とアクションを表す自然言語(NLP)機能を統合する。
提案手法は,映像理解システムの予測性能を高めるために,映像と言語的手がかりを統合する可能性も示している。
論文 参考訳(メタデータ) (2024-05-21T13:40:30Z) - OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文 参考訳(メタデータ) (2024-02-27T01:48:19Z) - MS-Former: Memory-Supported Transformer for Weakly Supervised Change
Detection with Patch-Level Annotations [50.79913333804232]
弱い教師付き変化検出のためのメモリ支援トランス (MS-Former) を提案する。
MS-Former は双方向注意ブロック (BAB) とパッチレベルの監視スキーム (PSS) から構成される。
3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-11-16T09:57:29Z) - Visual Reasoning: from State to Transformation [80.32402545546209]
既存の視覚的推論タスクは重要な要素、すなわち変換を無視している。
本稿では,新しいテキスト変換駆動型視覚推論(TVR)タスクを提案する。
現状のビジュアル推論モデルは,Basic上では良好に機能するが,イベント,ビュー,TRANCOにおける人間レベルのインテリジェンスには程遠いことを示す。
論文 参考訳(メタデータ) (2023-05-02T14:24:12Z) - Video Event Extraction via Tracking Visual States of Arguments [72.54932474653444]
本稿では,関連するすべての議論の視覚的状態の変化を追跡することによって,ビデオイベントを検出する新しいフレームワークを提案する。
引数の視覚状態の変化を捉えるために、オブジェクト内のピクセルの変化、オブジェクトの変位、複数の引数間の相互作用に分解する。
論文 参考訳(メタデータ) (2022-11-03T13:12:49Z) - What's in a Caption? Dataset-Specific Linguistic Diversity and Its
Effect on Visual Description Models and Metrics [14.624063829492764]
キャプションの多様性は、ジェネリックキャプションの生成の背後にある主要な要因であることがわかった。
現状のモデルでは、現代のメトリクスの根拠となる真実のキャプションよりも優れています。
論文 参考訳(メタデータ) (2022-05-12T17:55:08Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。