論文の概要: GSRFormer: Grounded Situation Recognition Transformer with Alternate
Semantic Attention Refinement
- arxiv url: http://arxiv.org/abs/2208.08965v1
- Date: Thu, 18 Aug 2022 17:13:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-19 13:00:43.031029
- Title: GSRFormer: Grounded Situation Recognition Transformer with Alternate
Semantic Attention Refinement
- Title(参考訳): gsrformer: 意味的注意を細分化した接地状況認識トランスフォーマ
- Authors: Zhi-Qi Cheng, Qi Dai, Siyao Li, Teruko Mitamura, Alexander Hauptmann
- Abstract要約: グラウンドドコンディション認識(GSR)は、人間のイベント理解のための画像の構造化されたセマンティックサマリーを生成することを目的としている。
オブジェクト検出とイメージキャプションタスクにインスパイアされた既存のメソッドは、2段階のフレームワークを使用するのが一般的である。
本稿では,動詞と役割の双方向関係の活用に焦点をあてた,新しい2段階フレームワークを提案する。
- 参考スコア(独自算出の注目度): 73.73599110214828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounded Situation Recognition (GSR) aims to generate structured semantic
summaries of images for ``human-like'' event understanding. Specifically, GSR
task not only detects the salient activity verb (e.g. buying), but also
predicts all corresponding semantic roles (e.g. agent and goods). Inspired by
object detection and image captioning tasks, existing methods typically employ
a two-stage framework: 1) detect the activity verb, and then 2) predict
semantic roles based on the detected verb. Obviously, this illogical framework
constitutes a huge obstacle to semantic understanding. First, pre-detecting
verbs solely without semantic roles inevitably fails to distinguish many
similar daily activities (e.g., offering and giving, buying and selling).
Second, predicting semantic roles in a closed auto-regressive manner can hardly
exploit the semantic relations among the verb and roles. To this end, in this
paper we propose a novel two-stage framework that focuses on utilizing such
bidirectional relations within verbs and roles. In the first stage, instead of
pre-detecting the verb, we postpone the detection step and assume a pseudo
label, where an intermediate representation for each corresponding semantic
role is learned from images. In the second stage, we exploit transformer layers
to unearth the potential semantic relations within both verbs and semantic
roles. With the help of a set of support images, an alternate learning scheme
is designed to simultaneously optimize the results: update the verb using nouns
corresponding to the image, and update nouns using verbs from support images.
Extensive experimental results on challenging SWiG benchmarks show that our
renovated framework outperforms other state-of-the-art methods under various
metrics.
- Abstract(参考訳): グラウンドドコンディション認識(GSR)は、「ヒューマンライク」イベント理解のための画像の構造化セマンティック要約を生成することを目的としている。
具体的には、gsrタスクは、サルエントアクティビティ動詞(例えば購入)を検出するだけでなく、対応するすべての意味的役割(例えばエージェントとグッズ)を予測する。
オブジェクト検出とイメージキャプションタスクに触発されて、既存のメソッドは通常、2段階のフレームワークを使用します。
1)活動動詞を検出し、それから
2) 検出した動詞に基づいて意味的役割を予測する。
もちろん、この非論理的枠組みは意味理解の大きな障害となっている。
まず、意味的役割を伴わない動詞を事前に検出することは、必然的に多くの類似した日常的活動(例えば、提供、提供、販売、販売)を区別することができない。
第二に、閉じた自己回帰的な方法で意味的役割を予測することは、動詞と役割間の意味的関係をほとんど利用できない。
そこで本稿では,動詞と役割の双方向関係の活用に焦点をあてた,新しい2段階の枠組みを提案する。
第1段階では、動詞を事前に検出するのではなく、検出ステップを延期して擬似ラベルを仮定し、各意味的役割の中間表現を画像から学習する。
第2段階では、トランスフォーマー層を利用して、動詞と意味役割の両方における潜在的な意味関係を解明する。
サポート画像の集合の助けを借りて、結果を同時に最適化する代替学習スキームをデザインする: 画像に対応する名詞を使用して動詞を更新し、サポート画像から動詞を使用して名詞を更新する。
SWiGベンチマークの大規模な実験結果から, 改良されたフレームワークは, 様々な測定基準下での他の最先端手法よりも優れた性能を示した。
関連論文リスト
- Seeing Beyond Classes: Zero-Shot Grounded Situation Recognition via Language Explainer [15.21084337999065]
接地状況認識(GSR)では、モデルが行動に参加するすべての意味的役割を検出する必要がある。
この複雑なタスクは通常、動詞の認識、意味的役割の接地、名詞の認識という3つのステップを含む。
我々はLanguage EXplainer (LEX) を用いたゼロショットGSRの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-24T10:17:13Z) - Towards Image Semantics and Syntax Sequence Learning [8.033697392628424]
画像意味論」と「画像構文」からなる「画像文法」の概念を導入する。
視覚オブジェクト/シーンのクラスに対して画像文法を学習するための弱教師付き2段階アプローチを提案する。
私たちのフレームワークは、パッチセマンティクスを推論し、欠陥のある構文を検出するように訓練されています。
論文 参考訳(メタデータ) (2024-01-31T00:16:02Z) - Do Trajectories Encode Verb Meaning? [22.409307683247967]
接地言語モデルは、名詞や形容詞などの具体的なカテゴリーを、画像やビデオを通じて世界に接続することを学ぶ。
本稿では,対象物の位置と回転が自然に意味論的にエンコードされる範囲について検討する。
トラジェクトリはいくつかの動詞(例えば転落)と相関し、自己教師付き事前学習による追加抽象は、動詞の意味のニュアンス的な違いをさらに捉えることができる。
論文 参考訳(メタデータ) (2022-06-23T19:57:16Z) - Comprehending and Ordering Semantics for Image Captioning [124.48670699658649]
我々はトランスフォーマー型構造,すなわちComprehending and Ordering Semantics Networks (COS-Net) の新たなレシピを提案する。
COS-Netは、豊富なセマンティックコンプレッディングと学習可能なセマンティックオーダリングプロセスを単一のアーキテクチャに統合する。
論文 参考訳(メタデータ) (2022-06-14T15:51:14Z) - Graph Adaptive Semantic Transfer for Cross-domain Sentiment
Classification [68.06496970320595]
クロスドメイン感情分類(CDSC)は、ソースドメインから学んだ伝達可能なセマンティクスを使用して、ラベルなしのターゲットドメインにおけるレビューの感情を予測することを目的としている。
本稿では、単語列と構文グラフの両方からドメイン不変セマンティクスを学習できる適応型構文グラフ埋め込み法であるグラフ適応意味伝達(GAST)モデルを提案する。
論文 参考訳(メタデータ) (2022-05-18T07:47:01Z) - Rethinking the Two-Stage Framework for Grounded Situation Recognition [61.93345308377144]
接地状況認識は「人間のような」事象理解に向けた重要なステップである。
既存のGSR手法では、第1段階で動詞を予測し、第2段階での意味的役割を検出するという、2段階の枠組みを採用している。
本稿では,CFVM (Coarse-to-Fine Verb Model) と Transformer-based Noun Model (TNM) で構成される新しいGSR用SituFormerを提案する。
論文 参考訳(メタデータ) (2021-12-10T08:10:56Z) - Constructing Phrase-level Semantic Labels to Form Multi-Grained
Supervision for Image-Text Retrieval [48.20798265640068]
テキスト中のミスマッチしたユニットの識別をより良くするためのフレーズレベルの監視を導入する。
一致した文のテキストシーングラフを構築し,フレーズレベルのラベルとしてエンティティとトリプルを抽出する。
トレーニングでは,グローバルな視点とローカルな視点の両方から,マルチスケールのマッチング損失を提案する。
論文 参考訳(メタデータ) (2021-09-12T14:21:15Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。