論文の概要: BCTR: Bidirectional Conditioning Transformer for Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2407.18715v2
- Date: Sun, 17 Nov 2024 11:30:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:29:14.490633
- Title: BCTR: Bidirectional Conditioning Transformer for Scene Graph Generation
- Title(参考訳): BCTR: シーングラフ生成のための双方向コンディショニングトランス
- Authors: Peng Hao, Xiaobing Wang, Yingying Jiang, Hanchao Jia, Xiaoshuai Hao,
- Abstract要約: シーングラフ生成(SGG)のためのセマンティックアライメント空間における新しい双方向コンディショニング因数分解法を提案する。
本稿では,双方向コンディショニングトランス (BCTR) を用いたエンド・ツー・エンドシーングラフ生成モデルを提案する。
BCTRは2つの重要なモジュールから構成されている。まず、双方向条件生成装置(BCG)は、エンティティと述語の間で多段階の対話的特徴拡張を行い、これらの予測間の相互強化を可能にする。
第二に、Random Feature Alignment(RFA)は、事前訓練されたモデルからマルチモーダルな知識を蒸留することによって特徴空間を正規化するために存在する。
- 参考スコア(独自算出の注目度): 4.977568882858193
- License:
- Abstract: Scene Graph Generation (SGG) remains a challenging task due to its compositional property. Previous approaches improve prediction efficiency through end-to-end learning. However, these methods exhibit limited performance as they assume unidirectional conditioning between entities and predicates, which restricts effective information interaction. To address this limitation, we propose a novel bidirectional conditioning factorization in a semantic-aligned space for SGG, enabling efficient and generalizable interaction between entities and predicates. Specifically, we introduce an end-to-end scene graph generation model, the Bidirectional Conditioning Transformer (BCTR), to implement this factorization. BCTR consists of two key modules. First, the Bidirectional Conditioning Generator (BCG) performs multi-stage interactive feature augmentation between entities and predicates, enabling mutual enhancement between these predictions. Second, Random Feature Alignment (RFA) is present to regularize feature space by distilling multi-modal knowledge from pre-trained models. Within this regularized feature space, BCG is feasible to capture interaction patterns across diverse relationships during training, and the learned interaction patterns can generalize to unseen but semantically related relationships during inference. Extensive experiments on Visual Genome and Open Image V6 show that BCTR achieves state-of-the-art performance on both benchmarks.
- Abstract(参考訳): シーングラフ生成(SGG)は、その構成特性のため、依然として困難な課題である。
従来のアプローチでは、エンドツーエンドの学習によって予測効率が向上している。
しかし、これらの手法は、実体と述語の間の一方向の条件付けを前提とし、効果的な情報相互作用を制限するため、限られた性能を示す。
この制限に対処するために、SGGのセマンティックアライメント空間における新しい双方向条件付け分解を提案し、エンティティと述語間の効率的で一般化可能な相互作用を可能にする。
具体的には、この因子化を実装するために、エンドツーエンドのシーングラフ生成モデルである双方向コンディショニングトランス(BCTR)を導入する。
BCTRは2つの重要なモジュールから構成される。
まず、双方向コンディショニングジェネレータ(BCG)は、エンティティと述語の間の多段階の対話的特徴拡張を行い、これらの予測間の相互強化を可能にする。
第二に、ランダム特徴アライメント(RFA)は、事前訓練されたモデルからマルチモーダルな知識を蒸留することによって特徴空間を規則化する。
この正規化された特徴空間の中では、BCGは訓練中に様々な関係をまたがる相互作用パターンを捉えることが可能であり、学習された相互作用パターンは推論中に目に見えないが意味論的に関連づけられた関係に一般化することができる。
Visual GenomeとOpen Image V6の大規模な実験は、BCTRが両方のベンチマークで最先端のパフォーマンスを達成することを示している。
関連論文リスト
- Unbiased Scene Graph Generation by Type-Aware Message Passing on Heterogeneous and Dual Graphs [1.0609815608017066]
これらの問題に対処するために,非バイアスのシーングラフ生成(TA-HDG)を提案する。
対話型および非対話型関係をモデル化するために,対話型グラフ構築法を提案する。
Type-Aware Message Passingは、複雑なインタラクションの理解を強化する。
論文 参考訳(メタデータ) (2024-11-20T12:54:47Z) - Personalized Behavior-Aware Transformer for Multi-Behavior Sequential
Recommendation [25.400756652696895]
マルチビヘイビアシーケンスレコメンデーション(MBSR)問題に対するパーソナライズされた行動認識変換フレームワーク(PBAT)を提案する。
PBATは表現層にパーソナライズされた振舞いパターン生成器を開発し,逐次学習のための動的・識別的な振舞いパターンを抽出する。
3つのベンチマークデータセットで実験を行い、その結果、フレームワークの有効性と解釈性を示した。
論文 参考訳(メタデータ) (2024-02-22T12:03:21Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Prototype-based Embedding Network for Scene Graph Generation [105.97836135784794]
現在のシーングラフ生成(SGG)手法は、コンテキスト情報を探索し、エンティティペア間の関係を予測する。
被写体と対象物の組み合わせが多様であるため、各述語カテゴリーには大きなクラス内変異が存在する。
プロトタイプベースのEmbedding Network (PE-Net) は、エンティティ/述語を、プロトタイプに準拠したコンパクトで独特な表現でモデル化する。
PLは、PE-Netがそのようなエンティティ述語マッチングを効率的に学習するのを助けるために導入され、不明瞭なエンティティ述語マッチングを緩和するためにプロトタイプ正規化(PR)が考案されている。
論文 参考訳(メタデータ) (2023-03-13T13:30:59Z) - Skeleton-based Action Recognition through Contrasting Two-Stream
Spatial-Temporal Networks [11.66009967197084]
本稿では,空間的および時間的モジュールを並列に融合するContrastive GCN-Transformer Network(ConGT)を提案する。
我々は3つのベンチマークデータセットで実験を行い、このモデルが動作認識における最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-01-27T02:12:08Z) - On the Role of Bidirectionality in Language Model Pre-Training [85.14614350372004]
本研究では,次のトークン予測,テキスト入力,ゼロショットプライミング,微調整における双方向性の役割について検討する。
最大6.7Bのパラメータを持つモデルをトレーニングし、スケールで一貫性のある相違点を見つけます。
論文 参考訳(メタデータ) (2022-05-24T02:25:05Z) - Masked Transformer for Neighhourhood-aware Click-Through Rate Prediction [74.52904110197004]
本稿では,近隣相互作用に基づくCTR予測を提案し,そのタスクを異種情報ネットワーク(HIN)設定に組み込む。
周辺地域の表現を高めるために,ノード間のトポロジカルな相互作用を4種類検討する。
本研究では,2つの実世界のデータセットに関する総合的な実験を行い,提案手法が最先端のCTRモデルを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2022-01-25T12:44:23Z) - Reformulating HOI Detection as Adaptive Set Prediction [25.44630995307787]
我々は適応セット予測問題としてHOI検出を再構成する。
本稿では,並列インスタンスとインタラクションブランチを備えた適応型セットベースワンステージフレームワーク(as-net)を提案する。
この手法は、人間のポーズや言語的特徴を必要とせず、従来の最先端の手法を上回ります。
論文 参考訳(メタデータ) (2021-03-10T10:40:33Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。