論文の概要: In Defense of Structural Symbolic Representation for Video
Event-Relation Prediction
- arxiv url: http://arxiv.org/abs/2301.03410v2
- Date: Wed, 12 Apr 2023 15:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 18:07:22.174166
- Title: In Defense of Structural Symbolic Representation for Video
Event-Relation Prediction
- Title(参考訳): ビデオイベント関連予測のための構造記号表現の防御
- Authors: Andrew Lu, Xudong Lin, Yulei Niu, Shih-Fu Chang
- Abstract要約: 1)SSRベースの手法が失敗した理由,2)ビデオイベント関連予測の評価設定を適切に理解する方法,3)SSRベースの手法の可能性を明らかにする方法について,実証分析を行った。
本稿では,SSRに基づくモデルをイベント系列モデルにさらにコンテキスト化し,外部の視覚的コモンセンス知識ベースをイベント関連予測事前学習データセットに再構成する方法により,より現実的な知識を付加することを提案する。
- 参考スコア(独自算出の注目度): 44.528350052251334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding event relationships in videos requires a model to understand
the underlying structures of events (i.e. the event type, the associated
argument roles, and corresponding entities) and factual knowledge for
reasoning. Structural symbolic representation (SSR) based methods directly take
event types and associated argument roles/entities as inputs to perform
reasoning. However, the state-of-the-art video event-relation prediction system
shows the necessity of using continuous feature vectors from input videos;
existing methods based solely on SSR inputs fail completely, even when given
oracle event types and argument roles. In this paper, we conduct an extensive
empirical analysis to answer the following questions: 1) why SSR-based method
failed; 2) how to understand the evaluation setting of video event relation
prediction properly; 3) how to uncover the potential of SSR-based methods. We
first identify suboptimal training settings as causing the failure of previous
SSR-based video event prediction models. Then through qualitative and
quantitative analysis, we show how evaluation that takes only video as inputs
is currently unfeasible, as well as the reliance on oracle event information to
obtain an accurate evaluation. Based on these findings, we propose to further
contextualize the SSR-based model to an Event-Sequence Model and equip it with
more factual knowledge through a simple yet effective way of reformulating
external visual commonsense knowledge bases into an event-relation prediction
pretraining dataset. The resultant new state-of-the-art model eventually
establishes a 25% Macro-accuracy performance boost.
- Abstract(参考訳): ビデオ内のイベント関係を理解するには、イベントの基盤となる構造(イベントタイプ、関連する引数ロール、対応するエンティティ)と推論の事実的知識を理解するモデルが必要である。
構造記号表現(SSR)に基づく手法は、イベントタイプと関連する引数ロール/エンティティを直接入力として取り込んで推論を行う。
しかし、最先端のビデオイベント関連予測システムでは、入力ビデオから連続的な特徴ベクトルを使用することの必要性が示されており、与えられたオラクルイベントタイプや引数ロールであっても、SSR入力のみに基づく既存のメソッドは完全に失敗する。
本稿では,以下の質問に答えるために,広範な実験分析を行う。
1) SSR ベースの方法が失敗した理由
2) 映像イベント関連予測の評価設定を適切に理解する方法
3) SSR に基づく手法の可能性を明らかにする方法。
まず,先行するssrベースのビデオイベント予測モデルの障害の原因として,最適以下のトレーニング設定を特定した。
そして,定性的かつ定量的な分析を通じて,映像のみを入力とする評価が現在不可能であることを示すとともに,オラクルのイベント情報に依存することによって正確な評価が得られることを示す。
そこで本研究では,ssrに基づくモデルをイベント系列モデルにさらにコンテキスト化し,外部視覚コモンセンス知識ベースをイベントリレーティング予測データセットに再構成する簡易かつ効果的な手法により,より事実的な知識を具備することを提案する。
その結果、新たな最先端モデルによって、25%のマクロ精度のパフォーマンス向上が実現される。
関連論文リスト
- Event-aware Video Corpus Moment Retrieval [79.48249428428802]
Video Corpus Moment Retrieval(VCMR)は、未編集ビデオの膨大なコーパス内の特定の瞬間を特定することに焦点を当てた、実用的なビデオ検索タスクである。
VCMRの既存の方法は、典型的にはフレーム対応のビデオ検索に依存し、クエリとビデオフレーム間の類似性を計算して、ビデオをランク付けする。
本研究では,ビデオ検索の基本単位として,ビデオ内のイベントを明示的に活用するモデルであるEventFormerを提案する。
論文 参考訳(メタデータ) (2024-02-21T06:55:20Z) - Semantic-aware Dynamic Retrospective-Prospective Reasoning for
Event-level Video Question Answering [14.659023742381777]
Event-Level Video Question Answering (EVQA)は、最適な回答を提供するために、ビデオイベント間の複雑な推論を必要とする。
本稿では,映像に基づく質問応答のための意味認識動的ふりかえり推論手法を提案する。
提案手法は,従来の最先端モデルと比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-14T03:57:11Z) - Event Knowledge Incorporation with Posterior Regularization for
Event-Centric Question Answering [32.03893317439898]
本稿では,イベントトリガアノテーションから抽出したイベント知識を後続正則化により組み込む戦略を提案する。
特に、QAデータセットのイベントトリガアノテーションに基づいて、イベント関連の知識制約を定義します。
イベント中心の2つのQAデータセットであるTORQUEとESTERについて実験を行った。
論文 参考訳(メタデータ) (2023-05-08T07:45:12Z) - Event-Centric Question Answering via Contrastive Learning and Invertible
Event Transformation [29.60817278635999]
そこで我々は,TranCLRと呼ばれる,対照的な学習と可逆的なイベント変換を備えた新しいQAモデルを提案する。
提案モデルは,イベントの意味的ベクトルを共通事象埋め込み空間に投影し,コントラスト学習で学習し,イベントの意味的知識を主流のQAパイプラインに自然に注入するために,可逆変換行列を利用する。
論文 参考訳(メタデータ) (2022-10-24T01:15:06Z) - Accessing and Interpreting OPC UA Event Traces based on Semantic Process
Descriptions [69.9674326582747]
本稿では、イベントデータのコンテキストに基づいて、プロダクションシステムのイベントデータにアクセスするアプローチを提案する。
本手法は,1)生産システムの階層構造の意味モデル,2)形式化されたプロセス記述,3)OPC UA情報モデルを組み合わせることによって,データベースシステムからフィルタリングイベントログを抽出する。
論文 参考訳(メタデータ) (2022-07-25T15:13:44Z) - Improve Event Extraction via Self-Training with Gradient Guidance [10.618929821822892]
本稿では、イベント抽出の進行を妨げる主な要因を克服するために、フィードバックによる自己評価(STF)フレームワークを提案する。
STFは,(1)既存のイベントアノテーションに基づいてトレーニングされたベースイベント抽出モデルと,(2)新しいイベント参照を擬似トレーニングサンプルとして予測するための大規模未ラベルコーパスと,(2)新しいイベントトリガ,引数,引数ロール,およびAMRグラフ内のそれらのパスを用いて互換性スコアを推定する新たなスコアリングモデルから構成される。
ACE05-E、ACE05-E+、EREを含む3つのベンチマークデータセットの実験結果
論文 参考訳(メタデータ) (2022-05-25T04:40:17Z) - Event Data Association via Robust Model Fitting for Event-based Object Tracking [66.05728523166755]
本稿では,イベントアソシエーションと融合問題に明示的に対処する新しいイベントデータアソシエーション(EDA)手法を提案する。
提案するEDAは、統合データアソシエーションと情報融合を行うために、イベントデータに最も適したイベントトラジェクトリを求める。
実験結果から,高速,運動のぼやけ,高ダイナミックレンジ条件といった難易度シナリオ下でのEDAの有効性が示された。
論文 参考訳(メタデータ) (2021-10-25T13:56:00Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z) - Online Learning Probabilistic Event Calculus Theories in Answer Set
Programming [70.06301658267125]
イベント認識(CER)システムは、事前に定義されたイベントパターンを使用して、ストリーミングタイムスタンプデータセットで発生を検出する。
本稿では,複雑なイベントパターンによる確率論的推論を,イベント計算で重み付けされたルールの形で行うことができるAnswer Set Programming(ASP)に基づくシステムを提案する。
その結果, 効率と予測の両面で, 新たなアプローチの優位性が示された。
論文 参考訳(メタデータ) (2021-03-31T23:16:29Z) - Self-supervised pre-training and contrastive representation learning for
multiple-choice video QA [39.78914328623504]
Video Question Answering (ビデオQA)は、与えられた質問に答えるために、ビデオと言語の両方の微妙な理解を必要とする。
本稿では,自己指導型事前学習段階と主段階における教師付きコントラスト学習を補助学習として,複数選択型ビデオ質問応答のための新しい学習手法を提案する。
提案手法は,TVQA,TVQA+,DramaQAといったマルチチョイスビデオQAに関連する高競争性ベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-09-17T03:37:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。