論文の概要: Diagnosing Errors in Video Relation Detectors
- arxiv url: http://arxiv.org/abs/2110.13110v1
- Date: Mon, 25 Oct 2021 17:04:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 16:36:58.581113
- Title: Diagnosing Errors in Video Relation Detectors
- Title(参考訳): ビデオ関係検出器における誤差の診断
- Authors: Shuo Chen, Pascal Mettes, Cees G.M. Snoek
- Abstract要約: ビデオ関係検出は、コンピュータビジョンにおいて新しくて困難な問題を形成する。
全体的なパフォーマンスはいまだに限界があり、その問題を解決する上で重要な要素が何であるかは不明だ。
本稿では,検出エラーの原因を分析する診断ツールを提案する。
- 参考スコア(独自算出の注目度): 46.792264699927436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video relation detection forms a new and challenging problem in computer
vision, where subjects and objects need to be localized spatio-temporally and a
predicate label needs to be assigned if and only if there is an interaction
between the two. Despite recent progress in video relation detection, overall
performance is still marginal and it remains unclear what the key factors are
towards solving the problem. Following examples set in the object detection and
action localization literature, we perform a deep dive into the error diagnosis
of current video relation detection approaches. We introduce a diagnostic tool
for analyzing the sources of detection errors. Our tool evaluates and compares
current approaches beyond the single scalar metric of mean Average Precision by
defining different error types specific to video relation detection, used for
false positive analyses. Moreover, we examine different factors of influence on
the performance in a false negative analysis, including relation length, number
of subject/object/predicate instances, and subject/object size. Finally, we
present the effect on video relation performance when considering an oracle fix
for each error type. On two video relation benchmarks, we show where current
approaches excel and fall short, allowing us to pinpoint the most important
future directions in the field. The tool is available at
\url{https://github.com/shanshuo/DiagnoseVRD}.
- Abstract(参考訳): 映像関係検出は、被験者とオブジェクトを時空間的に局所化する必要があるというコンピュータビジョンにおいて、新しく困難な問題を形成し、両者の相互作用がある場合に限り、述語ラベルを割り当てる必要がある。
近年のビデオ関係検出の進歩にもかかわらず、全体的な性能はいまだに限界であり、この問題を解決する上での鍵となる要素は未だ不明である。
対象検出と行動局在化の文献に設定された例に続いて,現在の映像関連検出手法の誤り診断を深く検討する。
本稿では,検出エラーの原因を分析する診断ツールを提案する。
本ツールでは,ビデオ関係検出に特有なエラータイプを定義して,平均平均精度の1つのスカラー基準を超える現在の手法を評価し,比較する。
さらに,関係長,対象/対象/述語インスタンス数,対象/対象サイズなど,偽陰性解析における性能への影響要因について検討した。
最後に,各エラータイプに対するoracle修正を検討する際のビデオ関連性能への影響について述べる。
2つのビデオ関係のベンチマークでは、現在のアプローチが優れている点と不足点が示され、フィールドにおける最も重要な将来方向を特定できる。
このツールは \url{https://github.com/shanshuo/DiagnoseVRD} で入手できる。
関連論文リスト
- Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection [14.22646492640906]
オープン語彙の視覚的関係検出のための単純かつ高効率なデコーダレスアーキテクチャを提案する。
我々のモデルはTransformerベースの画像エンコーダで、オブジェクトをトークンとして表現し、それらの関係を暗黙的にモデル化する。
提案手法は,ビジュアルゲノムおよび大語彙GQAベンチマーク上で,リアルタイムな推論速度で,最先端の関係検出性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T10:15:57Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Diagnosing Human-object Interaction Detectors [42.283857276076596]
本稿では,HOI検出モデルの定量的なブレークダウン解析を行うための診断ツールボックスを提案する。
我々は8つの最先端HOI検出モデルを分析し、今後の研究を促進する貴重な診断洞察を提供する。
論文 参考訳(メタデータ) (2023-08-16T17:39:15Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Exploiting Multi-Object Relationships for Detecting Adversarial Attacks
in Complex Scenes [51.65308857232767]
ディープニューラルネットワーク(DNN)をデプロイするビジョンシステムは、敵の例に弱いことが知られている。
近年の研究では、入力データの固有成分のチェックは、敵攻撃を検出するための有望な方法であることが示された。
言語モデルを用いてコンテキスト整合性チェックを行う新しい手法を開発した。
論文 参考訳(メタデータ) (2021-08-19T00:52:10Z) - Graph Neural Network-Based Anomaly Detection in Multivariate Time Series [17.414474298706416]
我々は,高次元時系列データにおける異常を検出する新しい方法を開発した。
我々のアプローチは、構造学習アプローチとグラフニューラルネットワークを組み合わせている。
本研究では,本手法がベースラインアプローチよりも高精度に異常を検出することを示す。
論文 参考訳(メタデータ) (2021-06-13T09:07:30Z) - Unsupervised Domain Adaption of Object Detectors: A Survey [87.08473838767235]
近年のディープラーニングの進歩は、様々なコンピュータビジョンアプリケーションのための正確で効率的なモデルの開発につながっている。
高度に正確なモデルを学ぶには、大量の注釈付きイメージを持つデータセットの可用性に依存する。
このため、ラベルスカースデータセットに視覚的に異なる画像がある場合、モデルの性能は大幅に低下する。
論文 参考訳(メタデータ) (2021-05-27T23:34:06Z) - Video Relation Detection with Trajectory-aware Multi-modal Features [13.358584829993193]
本稿では,軌道認識型マルチモーダル特徴を用いた映像関係検出手法を提案する。
ACM Multimedia 2020におけるビデオ関係理解グランドチャレンジのビデオ関係検出タスクにおいて,11.74% mAPで優勝した。
論文 参考訳(メタデータ) (2021-01-20T14:49:02Z) - Anomaly Detection for Aggregated Data Using Multi-Graph Autoencoder [21.81622481466591]
システムログの異常検出モデルの作成に重点を置いている。
集約されたデータと集約されたイベント間の関係を徹底的に分析する。
本稿では,新しい畳み込みグラフ自動エンコーダモデルMGAEを提案する。
論文 参考訳(メタデータ) (2021-01-11T17:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。