論文の概要: SeqTR: A Simple yet Universal Network for Visual Grounding
- arxiv url: http://arxiv.org/abs/2203.16265v1
- Date: Wed, 30 Mar 2022 12:52:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 15:46:17.383241
- Title: SeqTR: A Simple yet Universal Network for Visual Grounding
- Title(参考訳): SeqTR: ビジュアルグラウンドのためのシンプルだが普遍的なネットワーク
- Authors: Chaoyang Zhu, Yiyi Zhou, Yunhang Shen, Gen Luo, Xingjia Pan, Mingbao
Lin, Chao Chen, Liujuan Cao, Xiaoshuai Sun, Rongrong Ji
- Abstract要約: 本稿では,視覚的接地作業のためのシンプルな汎用ネットワークSeqTRを提案する。
画像とテキストの入力を条件とした点予測問題として,視覚的グラウンドリングを行った。
このパラダイムの下では、視覚的なグラウンドタスクはタスク固有のブランチやヘッドなしでSeqTRネットワークに統合されます。
- 参考スコア(独自算出の注目度): 88.03253818868204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a simple yet universal network termed SeqTR for
visual grounding tasks, e.g., phrase localization, referring expression
comprehension (REC) and segmentation (RES). The canonical paradigms for visual
grounding often require substantial expertise in designing network
architectures and loss functions, making them hard to generalize across tasks.
To simplify and unify the modeling, we cast visual grounding as a point
prediction problem conditioned on image and text inputs, where either the
bounding box or binary mask is represented as a sequence of discrete coordinate
tokens. Under this paradigm, visual grounding tasks are unified in our SeqTR
network without task-specific branches or heads, e.g., the convolutional mask
decoder for RES, which greatly reduces the complexity of multi-task modeling.
In addition, SeqTR also shares the same optimization objective for all tasks
with a simple cross-entropy loss, further reducing the complexity of deploying
hand-crafted loss functions. Experiments on five benchmark datasets demonstrate
that the proposed SeqTR outperforms (or is on par with) the existing
state-of-the-arts, proving that a simple yet universal approach for visual
grounding is indeed feasible.
- Abstract(参考訳): 本稿では,視覚的な接地作業,例えば句のローカライゼーション,参照表現理解(rec)とセグメンテーション(res)のための,単純かつ普遍的なネットワークであるseqtrを提案する。
視覚グラウンディングの標準的なパラダイムは、ネットワークアーキテクチャや損失関数の設計にかなりの専門知識を必要とすることが多いため、タスク間の一般化が困難である。
モデリングの簡略化と統一を図るため,画像およびテキスト入力に規定された点予測問題として視覚的グラウンドをキャストし,境界ボックスまたはバイナリマスクを離散座標トークンのシーケンスとして表現した。
このパラダイムの下では、視覚的なグラウンドタスクはタスク固有のブランチやヘッドを使わずにSeqTRネットワークに統合され、例えば、RESのための畳み込みマスクデコーダはマルチタスクモデリングの複雑さを大幅に低減する。
さらに、SeqTRは単純なクロスエントロピー損失を持つ全てのタスクに対して同じ最適化目標を共有しており、手作りの損失関数の展開の複雑さをさらに軽減している。
5つのベンチマークデータセットの実験では、提案されたSeqTRが既存の最先端技術よりも優れている(あるいは同等である)ことが示され、視覚的接地のための単純だが普遍的なアプローチが実際に実現可能であることが証明された。
関連論文リスト
- Human-Guided Complexity-Controlled Abstractions [30.38996929410352]
我々は、離散表現のスペクトルを生成し、複雑さを制御するためにニューラルネットワークを訓練する。
タスクに適した複雑性レベルに表現をチューニングすることは、最高の微調整性能をサポートすることを示す。
以上の結果から,人間の洞察を生かしてモデルファインタニングを迅速化するための有望な方向性が示唆された。
論文 参考訳(メタデータ) (2023-10-26T16:45:34Z) - ClusVPR: Efficient Visual Place Recognition with Clustering-based
Weighted Transformer [13.0858576267115]
ClusVPRは重複する領域における冗長な情報の特定の問題と、小さなオブジェクトの表現に対処する新しいアプローチである。
ClusVPRはClustering-based weighted Transformer Network (CWTNet)と呼ばれるユニークなパラダイムを導入した
また,パラメータ数を大幅に削減し,モデル効率を向上させる最適化VLAD層を導入する。
論文 参考訳(メタデータ) (2023-10-06T09:01:15Z) - Semantic-aware Modular Capsule Routing for Visual Question Answering [55.03883681191765]
SuPER と呼ばれるセマンティック・アウェアな modUlar caPsulE フレームワークを提案する。
5つのベンチマークデータセットに対して提案した SUPER スキームの有効性と一般化能力を比較検討した。
論文 参考訳(メタデータ) (2022-07-21T10:48:37Z) - A Unified Architecture of Semantic Segmentation and Hierarchical
Generative Adversarial Networks for Expression Manipulation [52.911307452212256]
セマンティックセグメンテーションと階層的GANの統一アーキテクチャを開発する。
我々のフレームワークのユニークな利点は、将来的なセマンティックセグメンテーションネットワーク条件を生成モデルに渡すことである。
我々は,AffectNetとRaFDの2つの難解な表情翻訳ベンチマークとセマンティックセグメンテーションベンチマークであるCelebAMask-HQについて評価を行った。
論文 参考訳(メタデータ) (2021-12-08T22:06:31Z) - Referring Transformer: A One-step Approach to Multi-task Visual
Grounding [45.42959940733406]
視覚的グラウンドタスクのための単純なワンステージマルチタスクフレームワークを提案する。
具体的には、2つのモダリティを視覚言語エンコーダに融合させるトランスフォーマーアーキテクチャを利用する。
我々のモデルは、コンテキスト情報とマルチタスクトレーニングから大きな恩恵を受けていることを示す。
論文 参考訳(メタデータ) (2021-06-06T10:53:39Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z) - A Model-driven Deep Neural Network for Single Image Rain Removal [52.787356046951494]
完全解釈可能なネットワーク構造を持つモデル駆動型ディープニューラルネットワークを提案する。
雨を表現するための畳み込み辞書学習機構に基づいて,新しい単一画像デレーニングモデルを提案する。
すべてのレインカーネルとオペレータは自動的に抽出され、レイン層とクリーンなバックグラウンド層の両方の特徴を忠実に特徴付けることができる。
論文 参考訳(メタデータ) (2020-05-04T09:13:25Z) - LSM: Learning Subspace Minimization for Low-level Vision [78.27774638569218]
我々は、正規化項を学習可能な部分空間制約に置き換え、データ項をドメイン知識を活用するために保存する。
この学習サブスペース最小化(LSM)フレームワークは、多くの低レベル視覚タスクのネットワーク構造とパラメータを統一する。
インタラクティブな画像セグメンテーション、ビデオセグメンテーション、ステレオマッチング、オプティカルフローを含む4つの低レベルタスクについてLSMフレームワークを実証し、様々なデータセット上でネットワークを検証した。
論文 参考訳(メタデータ) (2020-04-20T10:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。