論文の概要: Rethinking the Two-Stage Framework for Grounded Situation Recognition
- arxiv url: http://arxiv.org/abs/2112.05375v1
- Date: Fri, 10 Dec 2021 08:10:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-13 14:49:38.040510
- Title: Rethinking the Two-Stage Framework for Grounded Situation Recognition
- Title(参考訳): 地上環境認識のための2段階フレームワークの再考
- Authors: Meng Wei, Long Chen, Wei Ji, Xiaoyu Yue, Tat-Seng Chua
- Abstract要約: 接地状況認識は「人間のような」事象理解に向けた重要なステップである。
既存のGSR手法では、第1段階で動詞を予測し、第2段階での意味的役割を検出するという、2段階の枠組みを採用している。
本稿では,CFVM (Coarse-to-Fine Verb Model) と Transformer-based Noun Model (TNM) で構成される新しいGSR用SituFormerを提案する。
- 参考スコア(独自算出の注目度): 61.93345308377144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounded Situation Recognition (GSR), i.e., recognizing the salient activity
(or verb) category in an image (e.g., buying) and detecting all corresponding
semantic roles (e.g., agent and goods), is an essential step towards
"human-like" event understanding. Since each verb is associated with a specific
set of semantic roles, all existing GSR methods resort to a two-stage
framework: predicting the verb in the first stage and detecting the semantic
roles in the second stage. However, there are obvious drawbacks in both stages:
1) The widely-used cross-entropy (XE) loss for object recognition is
insufficient in verb classification due to the large intra-class variation and
high inter-class similarity among daily activities. 2) All semantic roles are
detected in an autoregressive manner, which fails to model the complex semantic
relations between different roles. To this end, we propose a novel SituFormer
for GSR which consists of a Coarse-to-Fine Verb Model (CFVM) and a
Transformer-based Noun Model (TNM). CFVM is a two-step verb prediction model: a
coarse-grained model trained with XE loss first proposes a set of verb
candidates, and then a fine-grained model trained with triplet loss re-ranks
these candidates with enhanced verb features (not only separable but also
discriminative). TNM is a transformer-based semantic role detection model,
which detects all roles parallelly. Owing to the global relation modeling
ability and flexibility of the transformer decoder, TNM can fully explore the
statistical dependency of the roles. Extensive validations on the challenging
SWiG benchmark show that SituFormer achieves a new state-of-the-art performance
with significant gains under various metrics. Code is available at
https://github.com/kellyiss/SituFormer.
- Abstract(参考訳): 接地状況認識(GSR)、すなわち画像(例えば購入)における健全な活動(動詞)カテゴリを認識し、対応するすべての意味的役割(例えば、エージェントや商品)を検出することは、「人間のような」出来事を理解するための重要なステップである。
各動詞は特定の意味的役割に関連付けられているため、既存のGSRメソッドはすべて、第1段階で動詞を予測し、第2段階での意味的役割を検出するという2段階の枠組みを利用している。
しかし、どちらの段階でも明らかな欠点がある。
1) 対象認識のための広範に使用されるクロスエントロピー(XE)損失は, 日常活動において, クラス内変動が大きく, クラス間類似度が高いために, 動詞分類において不十分である。
2) 全ての意味的役割は自己回帰的に検出され, 異なる役割間の複雑な意味的関係をモデル化できない。
そこで本稿では,CFVM(Coarse-to-Fine Verb Model)とTNM(Transformer-based Noun Model)からなるGSR用SituFormerを提案する。
CFVMは2段階の動詞予測モデルである: XE損失で訓練された粗い粒度モデルがまず一連の動詞候補を提案し、次に三重項損失で訓練された粒度モデルがこれらの候補を強化された動詞特徴で再ランクする。
tnmはトランスフォーマティブに基づくセマンティクスロール検出モデルであり、すべてのロールを並列に検出する。
トランスデコーダのグローバル関係モデリング能力と柔軟性により、tnmは役割の統計的依存性を完全に探求することができる。
挑戦的なswigベンチマークの広範囲な検証は、situformerが様々なメトリクスで大きな利益をもたらす新しい最先端のパフォーマンスを達成していることを示している。
コードはhttps://github.com/kellyiss/situformerで入手できる。
関連論文リスト
- Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - RAGFormer: Learning Semantic Attributes and Topological Structure for Fraud Detection [8.050935113945428]
本稿では,transFormer(RAGFormer)を用いたRelation-Aware GNNという新しいフレームワークを提案する。
RAGFormerはセマンティック機能とトポロジ機能の両方をターゲットノードに埋め込む。
単純なネットワークはセマンティックエンコーダ、トポロジーエンコーダ、アテンション融合モジュールで構成される。
論文 参考訳(メタデータ) (2024-02-27T12:53:15Z) - GSRFormer: Grounded Situation Recognition Transformer with Alternate
Semantic Attention Refinement [73.73599110214828]
グラウンドドコンディション認識(GSR)は、人間のイベント理解のための画像の構造化されたセマンティックサマリーを生成することを目的としている。
オブジェクト検出とイメージキャプションタスクにインスパイアされた既存のメソッドは、2段階のフレームワークを使用するのが一般的である。
本稿では,動詞と役割の双方向関係の活用に焦点をあてた,新しい2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-18T17:13:59Z) - ReSTR: Convolution-free Referring Image Segmentation Using Transformers [80.9672131755143]
本稿では,ReSTRと呼ばれる変換器を用いた画像セグメンテーションのための最初の畳み込みフリーモデルを提案する。
変換器エンコーダを通じて両方のモダリティの特徴を抽出するため、ReSTRは各モダリティ内のエンティティ間の長距離依存関係をキャプチャすることができる。
また、ReSTRは自己アテンションエンコーダによって2つのモードの特徴を融合させ、融合過程における2つのモード間のフレキシブルで適応的な相互作用を可能にする。
論文 参考訳(メタデータ) (2022-03-31T02:55:39Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - Few Shot Activity Recognition Using Variational Inference [9.371378627575883]
本稿では,少数のショットアクティビティ認識のための新しい変分推論ベースアーキテクチャフレームワーク(HF-AR)を提案する。
筆者らの枠組みは, 容積保存型家庭用フローを活用して, 新規クラスの柔軟な後部分布を学習する。
これにより、人間の行動認識のための最先端のショットアプローチと比較して、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-08-20T03:57:58Z) - Fork or Fail: Cycle-Consistent Training with Many-to-One Mappings [67.11712279612583]
サイクル一貫性トレーニングは、2つの関心領域間の前方および逆マッピングの学習に広く用いられている。
我々は条件付き変分オートエンコーダ(cvae)アプローチを開発し、これは全射写像を暗黙の単射に変換するものと見なすことができる。
私たちのパイプラインは、グラフからテキストへの多様性を促進しながら、サイクルトレーニング中に多くのマッピングをキャプチャできます。
論文 参考訳(メタデータ) (2020-12-14T10:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。