論文の概要: Action Class Relation Detection and Classification Across Multiple Video
Datasets
- arxiv url: http://arxiv.org/abs/2308.07558v1
- Date: Tue, 15 Aug 2023 03:56:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 13:59:30.761476
- Title: Action Class Relation Detection and Classification Across Multiple Video
Datasets
- Title(参考訳): 複数のビデオデータセット間のアクションクラス関係の検出と分類
- Authors: Yuya Yoshikawa, Yutaro Shigeto, Masashi Shimbo, Akikazu Takeuchi
- Abstract要約: 我々は、アクションクラス関係の検出と分類という2つの新しい機械学習タスクについて検討する。
本稿では,クラスに関連する言語情報と視覚情報を用いて,アクションクラス間の関係を予測する統一モデルを提案する。
実験の結果, (i) テキストとビデオの事前学習した最近のニューラルネットワークモデルは高い予測性能に寄与し, (ii) アクションラベルテキストに基づく関係予測はビデオに基づくよりも正確であり, (iii) ブレンディングアプローチは, 場合によっては予測性能をさらに向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 1.15520000056402
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The Meta Video Dataset (MetaVD) provides annotated relations between action
classes in major datasets for human action recognition in videos. Although
these annotated relations enable dataset augmentation, it is only applicable to
those covered by MetaVD. For an external dataset to enjoy the same benefit, the
relations between its action classes and those in MetaVD need to be determined.
To address this issue, we consider two new machine learning tasks: action class
relation detection and classification. We propose a unified model to predict
relations between action classes, using language and visual information
associated with classes. Experimental results show that (i) pre-trained recent
neural network models for texts and videos contribute to high predictive
performance, (ii) the relation prediction based on action label texts is more
accurate than based on videos, and (iii) a blending approach that combines
predictions by both modalities can further improve the predictive performance
in some cases.
- Abstract(参考訳): Meta Video Dataset(MetaVD)は、ビデオにおける人間のアクション認識のための主要なデータセットにおけるアクションクラス間の注釈付き関係を提供する。
これらの注釈付き関係はデータセットの拡張を可能にするが、MetaVDでカバーされているもののみに適用できる。
外部データセットが同じ利益を享受するためには、そのアクションクラスとMetaVD内のデータセットの関係を決定する必要がある。
この問題に対処するために,アクションクラス関係検出と分類という2つの新しい機械学習タスクについて検討する。
本稿では,クラスに関連する言語情報と視覚情報を用いて,アクションクラス間の関係を予測する統一モデルを提案する。
実験の結果
(i)テキストやビデオのトレーニング済みニューラルネットワークモデルは高い予測性能に寄与する。
(二)アクションラベルテキストに基づく関係予測は、動画による関係予測よりも正確であり、
(iii)両方のモダリティによる予測を組み合わせるブレンディングアプローチは、場合によっては予測性能をさらに向上させることができる。
関連論文リスト
- Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - Multiple Relations Classification using Imbalanced Predictions
Adaptation [0.0]
関係分類タスクは、対象物と対象物のペアに適切な意味関係を割り当てる。
現在の関係分類モデルは、1つの文で複数の関係を識別する追加の手順を用いる。
本稿では,これらの課題に対処する複数の関係分類モデルを提案する。
論文 参考訳(メタデータ) (2023-09-24T18:36:22Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Tensor Composition Net for Visual Relationship Prediction [115.14829858763399]
画像の視覚的関係を予測するための新しいコンポジションネットワーク(TCN)を提案する。
TCNの鍵となる考え方は、視覚的関係テンソルの低階特性を利用することである。
本稿では,ttcnの画像レベルの視覚関係予測により,画像検索の簡便かつ効率的なメカニズムを示す。
論文 参考訳(メタデータ) (2020-12-10T06:27:20Z) - Learning Relation Prototype from Unlabeled Texts for Long-tail Relation
Extraction [84.64435075778988]
本稿では,ラベルのないテキストから関係プロトタイプを学習するための一般的なアプローチを提案する。
我々は、エンティティ間の暗黙的な要因として関係プロトタイプを学習する。
私たちは、New York TimesとGoogle Distant Supervisionの2つの公開データセットで実験を行います。
論文 参考訳(メタデータ) (2020-11-27T06:21:12Z) - Learning End-to-End Action Interaction by Paired-Embedding Data
Augmentation [10.857323240766428]
新しいInteractive Action Translation (IAT)タスクは、ラベルなしのインタラクティブなペアからエンドツーエンドのアクションインタラクションを学ぶことを目的としている。
Paired-Embedding (PE) 法を提案する。
2つのデータセットの実験結果から,本手法の優れた効果と幅広い応用可能性が確認された。
論文 参考訳(メタデータ) (2020-07-16T01:54:16Z) - Actor-Context-Actor Relation Network for Spatio-Temporal Action
Localization [47.61419011906561]
ACAR-Netは、時間的行動ローカライゼーションのための間接推論を可能にする、新しい高階関係推論演算子を基盤としている。
本手法は,ActivityNet Challenge 2020のAVA-Kineticsactionローカライゼーションタスクで第1位である。
論文 参考訳(メタデータ) (2020-06-14T18:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。