論文の概要: In Defense of Structural Symbolic Representation for Video
Event-Relation Prediction
- arxiv url: http://arxiv.org/abs/2301.03410v1
- Date: Fri, 6 Jan 2023 14:43:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 17:17:33.059649
- Title: In Defense of Structural Symbolic Representation for Video
Event-Relation Prediction
- Title(参考訳): ビデオイベント関連予測のための構造記号表現の防御
- Authors: Andrew Lu, Xudong Lin, Yulei Niu, Shih-Fu Chang
- Abstract要約: 以下の質問に答えるために実証分析を行う。
我々は,従来のSSRに基づくビデオイベント予測モデルの失敗が,準最適トレーニング設定によって生じることを確認した。
本稿では,SSRに基づくモデルをイベントシーケンスモデルにさらにコンテキスト化し,より現実的な知識を付加することを提案する。
- 参考スコア(独自算出の注目度): 44.528350052251334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding event relationships in videos requires a model to understand
the underlying structures of events, i.e., the event type, the associated
argument roles, and corresponding entities) along with factual knowledge needed
for reasoning. Structural symbolic representation (SSR) based methods directly
take event types and associated argument roles/entities as inputs to perform
reasoning.
However, the state-of-the-art video event-relation prediction system shows
the necessity of using continuous feature vectors from input videos; existing
methods based solely on SSR inputs fail completely, event when given oracle
event types and argument roles. In this paper, we conduct an extensive
empirical analysis to answer the following questions: 1) why SSR-based method
failed; 2) how to understand the evaluation setting of video event relation
prediction properly; 3) how to uncover the potential of SSR-based methods. We
first identify the failure of previous SSR-based video event prediction models
to be caused by sub-optimal training settings. Surprisingly, we find that a
simple SSR-based model with tuned hyperparameters can actually yield a 20\%
absolute improvement in macro-accuracy over the state-of-the-art model. Then
through qualitative and quantitative analysis, we show how evaluation that
takes only video as inputs is currently unfeasible, and the reliance on oracle
event information to obtain an accurate evaluation. Based on these findings, we
propose to further contextualize the SSR-based model to an Event-Sequence Model
and equip it with more factual knowledge through a simple yet effective way of
reformulating external visual commonsense knowledge bases into an
event-relation prediction pretraining dataset. The resultant new
state-of-the-art model eventually establishes a 25\% Macro-accuracy performance
boost.
- Abstract(参考訳): ビデオ内のイベント関係を理解するには、イベントの基盤となる構造(イベントタイプ、関連する引数ロール、対応するエンティティ)と推論に必要な事実的知識を理解するモデルが必要である。
構造記号表現(SSR)に基づく手法は、イベントタイプと関連する引数ロール/エンティティを直接入力として取り込んで推論を行う。
しかし、現在最先端のビデオイベント関連予測システムは、入力ビデオから連続的な特徴ベクトルを使用する必要があることを示している。
本稿では,以下の質問に答えるために,広範な実験分析を行う。
1) SSR ベースの方法が失敗した理由
2) 映像イベント関連予測の評価設定を適切に理解する方法
3) SSR に基づく手法の可能性を明らかにする方法。
まず,従来のSSRに基づくビデオイベント予測モデルの失敗を,準最適トレーニング設定によって検出する。
意外なことに、調整されたハイパーパラメータを持つ単純なSSRモデルでは、最先端モデルよりも20倍のマクロ精度が得られる。
次に,質的かつ定量的な分析を通じて,映像のみを入力として使用する評価が現在実現不可能であることを示すとともに,oracle のイベント情報に依存して正確な評価を行う。
そこで本研究では,ssrに基づくモデルをイベント系列モデルにさらにコンテキスト化し,外部視覚コモンセンス知識ベースをイベントリレーティング予測データセットに再構成する簡易かつ効果的な手法により,より事実的な知識を具備することを提案する。
その結果、新たな最先端モデルによって、最終的に25\%のマクロ精度パフォーマンス向上が実現される。
関連論文リスト
- Event-aware Video Corpus Moment Retrieval [79.48249428428802]
Video Corpus Moment Retrieval(VCMR)は、未編集ビデオの膨大なコーパス内の特定の瞬間を特定することに焦点を当てた、実用的なビデオ検索タスクである。
VCMRの既存の方法は、典型的にはフレーム対応のビデオ検索に依存し、クエリとビデオフレーム間の類似性を計算して、ビデオをランク付けする。
本研究では,ビデオ検索の基本単位として,ビデオ内のイベントを明示的に活用するモデルであるEventFormerを提案する。
論文 参考訳(メタデータ) (2024-02-21T06:55:20Z) - Semantic-aware Dynamic Retrospective-Prospective Reasoning for
Event-level Video Question Answering [14.659023742381777]
Event-Level Video Question Answering (EVQA)は、最適な回答を提供するために、ビデオイベント間の複雑な推論を必要とする。
本稿では,映像に基づく質問応答のための意味認識動的ふりかえり推論手法を提案する。
提案手法は,従来の最先端モデルと比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-14T03:57:11Z) - Event Knowledge Incorporation with Posterior Regularization for
Event-Centric Question Answering [32.03893317439898]
本稿では,イベントトリガアノテーションから抽出したイベント知識を後続正則化により組み込む戦略を提案する。
特に、QAデータセットのイベントトリガアノテーションに基づいて、イベント関連の知識制約を定義します。
イベント中心の2つのQAデータセットであるTORQUEとESTERについて実験を行った。
論文 参考訳(メタデータ) (2023-05-08T07:45:12Z) - Event-Centric Question Answering via Contrastive Learning and Invertible
Event Transformation [29.60817278635999]
そこで我々は,TranCLRと呼ばれる,対照的な学習と可逆的なイベント変換を備えた新しいQAモデルを提案する。
提案モデルは,イベントの意味的ベクトルを共通事象埋め込み空間に投影し,コントラスト学習で学習し,イベントの意味的知識を主流のQAパイプラインに自然に注入するために,可逆変換行列を利用する。
論文 参考訳(メタデータ) (2022-10-24T01:15:06Z) - Accessing and Interpreting OPC UA Event Traces based on Semantic Process
Descriptions [69.9674326582747]
本稿では、イベントデータのコンテキストに基づいて、プロダクションシステムのイベントデータにアクセスするアプローチを提案する。
本手法は,1)生産システムの階層構造の意味モデル,2)形式化されたプロセス記述,3)OPC UA情報モデルを組み合わせることによって,データベースシステムからフィルタリングイベントログを抽出する。
論文 参考訳(メタデータ) (2022-07-25T15:13:44Z) - Improve Event Extraction via Self-Training with Gradient Guidance [10.618929821822892]
本稿では、イベント抽出の進行を妨げる主な要因を克服するために、フィードバックによる自己評価(STF)フレームワークを提案する。
STFは,(1)既存のイベントアノテーションに基づいてトレーニングされたベースイベント抽出モデルと,(2)新しいイベント参照を擬似トレーニングサンプルとして予測するための大規模未ラベルコーパスと,(2)新しいイベントトリガ,引数,引数ロール,およびAMRグラフ内のそれらのパスを用いて互換性スコアを推定する新たなスコアリングモデルから構成される。
ACE05-E、ACE05-E+、EREを含む3つのベンチマークデータセットの実験結果
論文 参考訳(メタデータ) (2022-05-25T04:40:17Z) - Event Data Association via Robust Model Fitting for Event-based Object Tracking [66.05728523166755]
本稿では,イベントアソシエーションと融合問題に明示的に対処する新しいイベントデータアソシエーション(EDA)手法を提案する。
提案するEDAは、統合データアソシエーションと情報融合を行うために、イベントデータに最も適したイベントトラジェクトリを求める。
実験結果から,高速,運動のぼやけ,高ダイナミックレンジ条件といった難易度シナリオ下でのEDAの有効性が示された。
論文 参考訳(メタデータ) (2021-10-25T13:56:00Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z) - Online Learning Probabilistic Event Calculus Theories in Answer Set
Programming [70.06301658267125]
イベント認識(CER)システムは、事前に定義されたイベントパターンを使用して、ストリーミングタイムスタンプデータセットで発生を検出する。
本稿では,複雑なイベントパターンによる確率論的推論を,イベント計算で重み付けされたルールの形で行うことができるAnswer Set Programming(ASP)に基づくシステムを提案する。
その結果, 効率と予測の両面で, 新たなアプローチの優位性が示された。
論文 参考訳(メタデータ) (2021-03-31T23:16:29Z) - Self-supervised pre-training and contrastive representation learning for
multiple-choice video QA [39.78914328623504]
Video Question Answering (ビデオQA)は、与えられた質問に答えるために、ビデオと言語の両方の微妙な理解を必要とする。
本稿では,自己指導型事前学習段階と主段階における教師付きコントラスト学習を補助学習として,複数選択型ビデオ質問応答のための新しい学習手法を提案する。
提案手法は,TVQA,TVQA+,DramaQAといったマルチチョイスビデオQAに関連する高競争性ベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-09-17T03:37:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。