論文の概要: Grounded Situation Recognition with Transformers
- arxiv url: http://arxiv.org/abs/2111.10135v1
- Date: Fri, 19 Nov 2021 10:10:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-22 21:53:44.621553
- Title: Grounded Situation Recognition with Transformers
- Title(参考訳): 変圧器による接地状況認識
- Authors: Junhyeong Cho, Youngseok Yoon, Hyeonjun Lee, Suha Kwak
- Abstract要約: グラウンドドコンディション認識(GSR)は、適切なアクション(動詞)を分類するだけでなく、セマンティックロールと関連付けられたエンティティ(名詞)や、与えられたイメージ内のそれらの位置を予測するタスクである。
視覚タスクにおけるトランスフォーマーの顕著な成功に着想を得て,トランスフォーマーエンコーダデコーダアーキテクチャに基づくGSRモデルを提案する。
- 参考スコア(独自算出の注目度): 11.202435939275675
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Grounded Situation Recognition (GSR) is the task that not only classifies a
salient action (verb), but also predicts entities (nouns) associated with
semantic roles and their locations in the given image. Inspired by the
remarkable success of Transformers in vision tasks, we propose a GSR model
based on a Transformer encoder-decoder architecture. The attention mechanism of
our model enables accurate verb classification by capturing high-level semantic
feature of an image effectively, and allows the model to flexibly deal with the
complicated and image-dependent relations between entities for improved noun
classification and localization. Our model is the first Transformer
architecture for GSR, and achieves the state of the art in every evaluation
metric on the SWiG benchmark. Our code is available at
https://github.com/jhcho99/gsrtr .
- Abstract(参考訳): 接地状況認識(英: grounded situation recognition, gsr)とは、salient action (verb) を分類するだけでなく、意味的役割とその位置に関連するエンティティ (名詞) を予測するタスクである。
視覚タスクにおけるトランスフォーマーの顕著な成功に着想を得て,トランスフォーマーエンコーダデコーダアーキテクチャに基づくGSRモデルを提案する。
本モデルの注意機構は、画像の高レベルな意味的特徴を効果的に捉えることで、正確な動詞の分類を可能にするとともに、名詞の分類と局所化を改善するために、エンティティ間の複雑で画像依存の関係を柔軟に扱うことができる。
我々のモデルは、GSRのための最初のトランスフォーマーアーキテクチャであり、SWiGベンチマークのすべての評価基準における技術の状態を達成する。
私たちのコードはhttps://github.com/jhcho99/gsrtrで利用可能です。
関連論文リスト
- A Generative Approach for Wikipedia-Scale Visual Entity Recognition [56.55633052479446]
与えられたクエリ画像をWikipediaにある600万の既存エンティティの1つにマッピングするタスクに対処する。
本稿では,対象エンティティを識別する「意味的・識別的コード」の自動復号化を学習する,新しい生成エンティティ認識フレームワークを紹介する。
論文 参考訳(メタデータ) (2024-03-04T13:47:30Z) - In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - Recursive Generalization Transformer for Image Super-Resolution [108.67898547357127]
本稿では,大域空間情報を捕捉し,高分解能画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。
我々は,RG-SAと局所的自己意識を組み合わせることで,グローバルな文脈の活用を促進する。
我々のRGTは最近の最先端の手法よりも定量的に質的に優れている。
論文 参考訳(メタデータ) (2023-03-11T10:44:44Z) - Iterative collaborative routing among equivariant capsules for
transformation-robust capsule networks [6.445605125467574]
本稿では,同変で構成性に配慮したカプセルネットワークモデルを提案する。
構成性に対する認識は、提案した新しい反復的グラフベースのルーティングアルゴリズムを用いて得られる。
FashionMNIST, CIFAR-10, CIFAR-100の変換画像分類実験により, ICRを用いた我々のモデルは, 畳み込みベースラインとカプセルベースラインを上回り, 最先端性能を実現していることが示された。
論文 参考訳(メタデータ) (2022-10-20T08:47:18Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Transformer Scale Gate for Semantic Segmentation [53.27673119360868]
Transformer Scale Gate (TSG) は、視覚変換器の自己および横断的な注意をスケール選択に活用する。
Pascal ContextとADE20Kデータセットに関する我々の実験は、我々の特徴選択戦略が一貫した利益を達成することを示す。
論文 参考訳(メタデータ) (2022-05-14T13:11:39Z) - ReSTR: Convolution-free Referring Image Segmentation Using Transformers [80.9672131755143]
本稿では,ReSTRと呼ばれる変換器を用いた画像セグメンテーションのための最初の畳み込みフリーモデルを提案する。
変換器エンコーダを通じて両方のモダリティの特徴を抽出するため、ReSTRは各モダリティ内のエンティティ間の長距離依存関係をキャプチャすることができる。
また、ReSTRは自己アテンションエンコーダによって2つのモードの特徴を融合させ、融合過程における2つのモード間のフレキシブルで適応的な相互作用を可能にする。
論文 参考訳(メタデータ) (2022-03-31T02:55:39Z) - Cross-view Geo-localization with Evolving Transformer [7.5800316275498645]
クロスビューなジオローカライゼーションは、視界の劇的な外観と幾何学的差異のために困難である。
本研究では,Transformerにおける自己アテンションの特性を利用してグローバルな依存関係をモデル化する新しいジオローカライゼーショントランスフォーマー(EgoTR)を提案する。
我々のEgoTRは、標準的な、きめ細かな、そして、クロスデータセットなジオローカライゼーションタスクにおいて、最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2021-07-02T05:33:14Z) - Fully Transformer Networks for Semantic ImageSegmentation [26.037770622551882]
エンコーダデコーダをベースとしたFully Transformer Networks (FTN) を用いた意味的イメージセグメンテーションのための新しいフレームワークについて検討する。
階層的特徴を段階的に学習するエンコーダとして、標準視覚変換器(ViT)の計算複雑性を低減しつつ、ピラミッド群変換器(PGT)を提案する。
次に,セマンティックイメージセグメンテーションのためのPGTエンコーダの複数レベルから意味レベルと空間レベル情報を融合する特徴ピラミッドトランス (FPT) を提案する。
論文 参考訳(メタデータ) (2021-06-08T05:15:28Z) - Co-Scale Conv-Attentional Image Transformers [22.834316796018705]
Co-scale conv-attentional image Transformers (CoaT) は、コスケールおよびconv-attentional mechanismを備えたTransformerベースの画像分類器である。
ImageNetでは、比較的小さなCoaTモデルは、同様のサイズの畳み込みニューラルネットワークや画像/画像変換器と比較して優れた分類結果を得る。
論文 参考訳(メタデータ) (2021-04-13T17:58:29Z) - Toward a Controllable Disentanglement Network [22.968760397814993]
本稿では, 画像編集における歪みの程度を制御し, 歪み強度と復元品質のバランスをとることにより, 歪み画像表現を学習する2つの重要な問題に対処する。
ソフトターゲット表現の実際の値空間を探索することにより、指定された特性を持つ新規な画像を合成することができる。
論文 参考訳(メタデータ) (2020-01-22T16:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。