論文の概要: Single-Stage Visual Relationship Learning using Conditional Queries
- arxiv url: http://arxiv.org/abs/2306.05689v1
- Date: Fri, 9 Jun 2023 06:02:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 14:39:16.885867
- Title: Single-Stage Visual Relationship Learning using Conditional Queries
- Title(参考訳): 条件付きクエリを用いた単段階視覚関係学習
- Authors: Alakh Desai, Tz-Ying Wu, Subarna Tripathi, Nuno Vasconcelos
- Abstract要約: TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
- 参考スコア(独自算出の注目度): 60.90880759475021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research in scene graph generation (SGG) usually considers two-stage models,
that is, detecting a set of entities, followed by combining them and labeling
all possible relationships. While showing promising results, the pipeline
structure induces large parameter and computation overhead, and typically
hinders end-to-end optimizations. To address this, recent research attempts to
train single-stage models that are computationally efficient. With the advent
of DETR, a set based detection model, one-stage models attempt to predict a set
of subject-predicate-object triplets directly in a single shot. However, SGG is
inherently a multi-task learning problem that requires modeling entity and
predicate distributions simultaneously. In this paper, we propose Transformers
with conditional queries for SGG, namely, TraCQ with a new formulation for SGG
that avoids the multi-task learning problem and the combinatorial entity pair
distribution. We employ a DETR-based encoder-decoder design and leverage
conditional queries to significantly reduce the entity label space as well,
which leads to 20% fewer parameters compared to state-of-the-art single-stage
models. Experimental results show that TraCQ not only outperforms existing
single-stage scene graph generation methods, it also beats many
state-of-the-art two-stage methods on the Visual Genome dataset, yet is capable
of end-to-end training and faster inference.
- Abstract(参考訳): シーングラフ生成(SGG)の研究は、通常、2段階モデル、すなわちエンティティの集合を検出し、それらを組み合わせ、全ての可能な関係をラベル付けする。
有望な結果を示す一方で、パイプライン構造は大きなパラメータと計算オーバーヘッドを引き起こし、通常はエンドツーエンドの最適化を妨げる。
これに対処するために、最近の研究は計算効率の良い単段モデルの訓練を試みている。
セットベース検出モデルであるDETRの出現により、ワンステージモデルは1枚のショットで主観的対象物三重項のセットを直接予測しようとする。
しかし、SGGは本質的にマルチタスク学習の問題であり、モデリングエンティティと予測分布を同時に要求する。
本稿では,SGGの条件付きクエリ,すなわち,マルチタスク学習問題や組合せエンティティペアの分布を回避するため,SGGの新しい定式化を備えたTraCQを提案する。
detrベースのエンコーダ-デコーダ設計を採用し、条件付きクエリを活用してエンティティラベル空間を大幅に削減し、最先端のシングルステージモデルと比較してパラメータを20%削減した。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回り、エンドツーエンドのトレーニングと高速な推論が可能であることがわかった。
関連論文リスト
- Few-shot Prompting for Pairwise Ranking: An Effective Non-Parametric Retrieval Model [18.111868378615206]
本稿では,複雑な訓練パイプラインを必要とせず,教師付きモデルに近い性能を達成できる一対数ショットローダを提案する。
また,複雑なトレーニングパイプラインを必要とせず,教師付きモデルに近い性能を実現する。
論文 参考訳(メタデータ) (2024-09-26T11:19:09Z) - Hydra-SGG: Hybrid Relation Assignment for One-stage Scene Graph Generation [57.69385990442078]
Hydra-SGGはVG150で10.6 mR@20と16.0 mR@50で最先端のパフォーマンスを達成し、訓練期間は12時間に過ぎなかった。
また、Open Images V6とGQAに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2024-09-16T13:13:06Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - RelTR: Relation Transformer for Scene Graph Generation [34.1193503312965]
エンコーダ-デコーダアーキテクチャを用いたシーングラフ生成モデルRelTRを提案する。
モデルは、異なる種類の注意機構を用いて、固定サイズの三重項の主観的対象を推定する。
Visual GenomeとOpen Images V6データセットの実験は、我々のモデルの優れた性能と高速な推論を実証している。
論文 参考訳(メタデータ) (2022-01-27T11:53:41Z) - Query Training: Learning a Worse Model to Infer Better Marginals in
Undirected Graphical Models with Hidden Variables [11.985433487639403]
確率的グラフィカルモデル(PGM)は、柔軟な方法でクエリできる知識のコンパクトな表現を提供する。
我々は,PGMを学習するメカニズムであるクエリトレーニング(QT)を導入し,それと組み合わせる近似推論アルゴリズムに最適化する。
実験により,QTを用いて隠れ変数を持つ8連結グリッドマルコフランダム場を学習できることが実証された。
論文 参考訳(メタデータ) (2020-06-11T20:34:32Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。