Fugu-MT 論文翻訳(概要): Generic Event Boundary Captioning: A Benchmark for Status Changes Understanding

論文の概要: Generic Event Boundary Captioning: A Benchmark for Status Changes Understanding

arxiv url: http://arxiv.org/abs/2204.00486v1
Date: Fri, 1 Apr 2022 14:45:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-04 17:14:29.972537
Title: Generic Event Boundary Captioning: A Benchmark for Status Changes Understanding
Title（参考訳）: ジェネリックイベント境界キャプション:状態変化の理解のためのベンチマーク
Authors: Yuxuan Wang, Difei Gao, Licheng Yu, Stan Weixian Lei, Matt Feiszli, Mike Zheng Shou
Abstract要約: Kinetic-GEBC(Generic Event Boundary Captioning)と呼ばれる新しいデータセットを導入する。データセットは、12Kビデオのステータス変更を記述するキャプションに関連する170万以上のバウンダリで構成されている。現状の変化を通じて,よりきめ細かな,堅牢で,人間的な映像理解を支援する3つのタスクを提案する。
参考スコア（独自算出の注目度）: 22.618840285782127
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Cognitive science has shown that humans perceive videos in terms of events separated by state changes of dominant subjects. State changes trigger new events and are one of the most useful among the large amount of redundant information perceived. However, previous research focuses on the overall understanding of segments without evaluating the fine-grained status changes inside. In this paper, we introduce a new dataset called Kinetic-GEBC (Generic Event Boundary Captioning). The dataset consists of over 170k boundaries associated with captions describing status changes in the generic events in 12K videos. Upon this new dataset, we propose three tasks supporting the development of a more fine-grained, robust, and human-like understanding of videos through status changes. We evaluate many representative baselines in our dataset, where we also design a new TPD (Temporal-based Pairwise Difference) Modeling method for current state-of-the-art backbones and achieve significant performance improvements. Besides, the results show there are still formidable challenges for current methods in the utilization of different granularities, representation of visual difference, and the accurate localization of status changes. Further analysis shows that our dataset can drive developing more powerful methods to understand status changes and thus improve video level comprehension.
Abstract（参考訳）: 認知科学は、人間が支配的な被験者の状態変化によって分離された出来事の観点からビデオを認識することを示した。状態の変化は新しいイベントを引き起こし、知覚される大量の冗長な情報の中で最も有用である。しかし、従来の研究では、内部の微細な状態変化を評価せずにセグメント全体の理解に焦点を当てていた。本稿では,Kineetic-GEBC(Generic Event Boundary Captioning)と呼ばれる新しいデータセットを提案する。データセットは、12Kビデオにおけるジェネリックイベントの状態変化を記述するキャプションに関連する170万以上のバウンダリで構成されている。この新しいデータセットでは,よりきめ細かな,堅牢で,人間的な映像理解を支援する3つのタスクを,ステータス変更を通じて提案する。我々はデータセットの多くの代表的ベースラインを評価し、現在の最先端のバックボーンに対する新しいPD(Temporal-based Pairwise difference)モデリング手法を設計し、大幅な性能改善を実現した。さらに, 異なる粒度の利用, 視覚的差異の表現, 状態変化の正確な局所化など, 現状の手法には依然として重大な課題があることが示された。さらに分析した結果,我々のデータセットは,状況変化を理解するためのより強力な手法の開発を促進し,ビデオレベルの理解を改善することができることがわかった。

関連論文リスト

VUDG: A Dataset for Video Understanding Domain Generalization [29.27464392754555]
Video Understanding Domain Generalization (VUDG) は、ビデオ理解におけるDGのパフォーマンスを評価するために特別に設計された注釈付きデータセットである。 VUDGには、3つのタイプのドメインシフトをカバーする11の異なるドメインのビデオが含まれており、公正で意味のある評価を保証するために、異なるドメイン間のセマンティックな類似性を維持している。
論文参考訳（メタデータ） (2025-05-30T08:39:36Z)
SEVERE++: Evaluating Benchmark Sensitivity in Generalization of Video Representation Learning [78.44705665291741]
本稿では,現代ビデオの自己教師型モデルの包括的評価について述べる。ドメインシフト、サンプル効率、アクションの粒度、タスクの多様性の4つの重要な下流因子の一般化に焦点を当てる。我々の分析は、アーキテクチャの進歩にもかかわらず、トランスフォーマーベースのモデルは下流の条件に敏感であることを示している。
論文参考訳（メタデータ） (2025-04-08T06:00:28Z)
SPOC: Spatially-Progressing Object State Change Segmentation in Video [52.65373395382122]
本稿では,空間的に進行するオブジェクト状態変化セグメンテーションタスクを紹介する。目標は、アクション可能なオブジェクトと変換されるオブジェクトのピクセルレベルの領域をセグメント化することです。本研究は,ロボットエージェントに役立てるために,活動進行の追跡に有用であることを示す。
論文参考訳（メタデータ） (2025-03-15T01:48:54Z)
Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文参考訳（メタデータ） (2024-10-16T09:42:29Z)
Anticipating Object State Changes [0.8428703116072809]
提案するフレームワークは、近い将来に発生するオブジェクトの状態変化を、まだ見つからない人間の行動によって予測する。これは、最近の視覚情報を表す学習された視覚機能と、過去のオブジェクトの状態変化とアクションを表す自然言語(NLP)機能を統合する。提案手法は,映像理解システムの予測性能を高めるために,映像と言語的手がかりを統合する可能性も示している。
論文参考訳（メタデータ） (2024-05-21T13:40:30Z)
OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。 OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文参考訳（メタデータ） (2024-02-27T01:48:19Z)
MS-Former: Memory-Supported Transformer for Weakly Supervised Change Detection with Patch-Level Annotations [50.79913333804232]
弱い教師付き変化検出のためのメモリ支援トランス (MS-Former) を提案する。 MS-Former は双方向注意ブロック (BAB) とパッチレベルの監視スキーム (PSS) から構成される。 3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2023-11-16T09:57:29Z)
Visual Reasoning: from State to Transformation [80.32402545546209]
既存の視覚的推論タスクは重要な要素、すなわち変換を無視している。本稿では,新しいテキスト変換駆動型視覚推論(TVR)タスクを提案する。現状のビジュアル推論モデルは,Basic上では良好に機能するが,イベント,ビュー,TRANCOにおける人間レベルのインテリジェンスには程遠いことを示す。
論文参考訳（メタデータ） (2023-05-02T14:24:12Z)
Self-supervised learning of Split Invariant Equivariant representations [0.0]
55以上の3Dモデルと250万以上の画像からなる3DIEBenchを導入し、オブジェクトに適用される変換を完全に制御する。我々はハイパーネットワークに基づく予測アーキテクチャを導入し、不変表現を非分散に分解することなく学習する。 SIE(Split Invariant-Equivariant)を導入し、よりリッチな表現を学ぶために、ハイパーネットワークベースの予測器と表現を2つの部分に分割する。
論文参考訳（メタデータ） (2023-02-14T07:53:18Z)
Video Event Extraction via Tracking Visual States of Arguments [72.54932474653444]
本稿では,関連するすべての議論の視覚的状態の変化を追跡することによって,ビデオイベントを検出する新しいフレームワークを提案する。引数の視覚状態の変化を捉えるために、オブジェクト内のピクセルの変化、オブジェクトの変位、複数の引数間の相互作用に分解する。
論文参考訳（メタデータ） (2022-11-03T13:12:49Z)
What's in a Caption? Dataset-Specific Linguistic Diversity and Its Effect on Visual Description Models and Metrics [14.624063829492764]
キャプションの多様性は、ジェネリックキャプションの生成の背後にある主要な要因であることがわかった。現状のモデルでは、現代のメトリクスの根拠となる真実のキャプションよりも優れています。
論文参考訳（メタデータ） (2022-05-12T17:55:08Z)
Human Instance Segmentation and Tracking via Data Association and Single-stage Detector [17.46922710432633]
人間のビデオインスタンスのセグメンテーションは、人間の活動のコンピュータ理解において重要な役割を果たす。現在のVISメソッドのほとんどはMask-RCNNフレームワークに基づいている。単段検出器を用いた人間のビデオ・インスタンス・セグメンテーションのための新しい手法を開発した。
論文参考訳（メタデータ） (2022-03-31T11:36:09Z)
Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文参考訳（メタデータ） (2021-10-05T15:39:11Z)
Revisiting Contrastive Methods for Unsupervised Learning of Visual Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文参考訳（メタデータ） (2021-06-10T17:59:13Z)
Spoken Moments: Learning Joint Audio-Visual Representations from Video Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。 AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文参考訳（メタデータ） (2021-05-10T16:30:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。