論文の概要: Generic Event Boundary Captioning: A Benchmark for Status Changes
Understanding
- arxiv url: http://arxiv.org/abs/2204.00486v1
- Date: Fri, 1 Apr 2022 14:45:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 17:14:29.972537
- Title: Generic Event Boundary Captioning: A Benchmark for Status Changes
Understanding
- Title(参考訳): ジェネリックイベント境界キャプション:状態変化の理解のためのベンチマーク
- Authors: Yuxuan Wang, Difei Gao, Licheng Yu, Stan Weixian Lei, Matt Feiszli,
Mike Zheng Shou
- Abstract要約: Kinetic-GEBC(Generic Event Boundary Captioning)と呼ばれる新しいデータセットを導入する。
データセットは、12Kビデオのステータス変更を記述するキャプションに関連する170万以上のバウンダリで構成されている。
現状の変化を通じて,よりきめ細かな,堅牢で,人間的な映像理解を支援する3つのタスクを提案する。
- 参考スコア(独自算出の注目度): 22.618840285782127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cognitive science has shown that humans perceive videos in terms of events
separated by state changes of dominant subjects. State changes trigger new
events and are one of the most useful among the large amount of redundant
information perceived. However, previous research focuses on the overall
understanding of segments without evaluating the fine-grained status changes
inside. In this paper, we introduce a new dataset called Kinetic-GEBC (Generic
Event Boundary Captioning). The dataset consists of over 170k boundaries
associated with captions describing status changes in the generic events in 12K
videos. Upon this new dataset, we propose three tasks supporting the
development of a more fine-grained, robust, and human-like understanding of
videos through status changes. We evaluate many representative baselines in our
dataset, where we also design a new TPD (Temporal-based Pairwise Difference)
Modeling method for current state-of-the-art backbones and achieve significant
performance improvements. Besides, the results show there are still formidable
challenges for current methods in the utilization of different granularities,
representation of visual difference, and the accurate localization of status
changes. Further analysis shows that our dataset can drive developing more
powerful methods to understand status changes and thus improve video level
comprehension.
- Abstract(参考訳): 認知科学は、人間が支配的な被験者の状態変化によって分離された出来事の観点からビデオを認識することを示した。
状態の変化は新しいイベントを引き起こし、知覚される大量の冗長な情報の中で最も有用である。
しかし、従来の研究では、内部の微細な状態変化を評価せずにセグメント全体の理解に焦点を当てていた。
本稿では,Kineetic-GEBC(Generic Event Boundary Captioning)と呼ばれる新しいデータセットを提案する。
データセットは、12Kビデオにおけるジェネリックイベントの状態変化を記述するキャプションに関連する170万以上のバウンダリで構成されている。
この新しいデータセットでは,よりきめ細かな,堅牢で,人間的な映像理解を支援する3つのタスクを,ステータス変更を通じて提案する。
我々はデータセットの多くの代表的ベースラインを評価し、現在の最先端のバックボーンに対する新しいPD(Temporal-based Pairwise difference)モデリング手法を設計し、大幅な性能改善を実現した。
さらに, 異なる粒度の利用, 視覚的差異の表現, 状態変化の正確な局所化など, 現状の手法には依然として重大な課題があることが示された。
さらに分析した結果,我々のデータセットは,状況変化を理解するためのより強力な手法の開発を促進し,ビデオレベルの理解を改善することができることがわかった。
関連論文リスト
- Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文 参考訳(メタデータ) (2024-02-27T01:48:19Z) - Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models [7.452422412106768]
リモートセマンティックセマンティックセグメンテーションのためのText2Segという新しい手法を提案する。
自動プロンプト生成プロセスを使用することで、広範なアノテーションへの依存を克服する。
我々は,Text2SegがバニラSAMモデルと比較してゼロショット予測性能を著しく向上することを示した。
論文 参考訳(メタデータ) (2023-04-20T18:39:41Z) - Self-supervised learning of Split Invariant Equivariant representations [0.0]
55以上の3Dモデルと250万以上の画像からなる3DIEBenchを導入し、オブジェクトに適用される変換を完全に制御する。
我々はハイパーネットワークに基づく予測アーキテクチャを導入し、不変表現を非分散に分解することなく学習する。
SIE(Split Invariant-Equivariant)を導入し、よりリッチな表現を学ぶために、ハイパーネットワークベースの予測器と表現を2つの部分に分割する。
論文 参考訳(メタデータ) (2023-02-14T07:53:18Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Human Instance Segmentation and Tracking via Data Association and
Single-stage Detector [17.46922710432633]
人間のビデオインスタンスのセグメンテーションは、人間の活動のコンピュータ理解において重要な役割を果たす。
現在のVISメソッドのほとんどはMask-RCNNフレームワークに基づいている。
単段検出器を用いた人間のビデオ・インスタンス・セグメンテーションのための新しい手法を開発した。
論文 参考訳(メタデータ) (2022-03-31T11:36:09Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。