論文の概要: BCTR: Bidirectional Conditioning Transformer for Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2407.18715v1
- Date: Fri, 26 Jul 2024 13:02:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 13:30:50.912310
- Title: BCTR: Bidirectional Conditioning Transformer for Scene Graph Generation
- Title(参考訳): BCTR: シーングラフ生成のための双方向コンディショニングトランス
- Authors: Peng Hao, Xiaobing Wang, Yingying Jiang, Hanchao Jia, Xiaoshuai Hao,
- Abstract要約: シーングラフ生成(SGG)は、その構成特性のため、依然として困難な課題である。
従来のアプローチでは、エンドツーエンドで学習することで予測効率が向上する。
本稿では,SGGのための新しい双方向条件付け分解法を提案し,実体と述語との効率的な相互作用を導入する。
- 参考スコア(独自算出の注目度): 4.977568882858193
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scene Graph Generation (SGG) remains a challenging task due to its compositional property. Previous approaches improve prediction efficiency by learning in an end-to-end manner. However, these methods exhibit limited performance as they assume unidirectional conditioning between entities and predicates, leading to insufficient information interaction. To address this limitation, we propose a novel bidirectional conditioning factorization for SGG, introducing efficient interaction between entities and predicates. Specifically, we develop an end-to-end scene graph generation model, Bidirectional Conditioning Transformer (BCTR), to implement our factorization. BCTR consists of two key modules. First, the Bidirectional Conditioning Generator (BCG) facilitates multi-stage interactive feature augmentation between entities and predicates, enabling mutual benefits between the two predictions. Second, Random Feature Alignment (RFA) regularizes the feature space by distilling multi-modal knowledge from pre-trained models, enhancing BCTR's ability on tailed categories without relying on statistical priors. We conduct a series of experiments on Visual Genome and Open Image V6, demonstrating that BCTR achieves state-of-the-art performance on both benchmarks. The code will be available upon acceptance of the paper.
- Abstract(参考訳): シーングラフ生成(SGG)は、その構成特性のため、依然として困難な課題である。
従来のアプローチでは、エンドツーエンドで学習することで予測効率が向上する。
しかし、これらの手法は、エンティティと述語間の一方向条件付けを前提として、限られた性能を示し、情報相互作用が不十分になる。
この制限に対処するため、我々はSGGのための新しい双方向条件因子化を提案し、実体と述語の間の効率的な相互作用を導入した。
具体的には,BCTR (Bidirectional Conditioning Transformer) をエンド・ツー・エンドのシーングラフ生成モデルとして開発した。
BCTRは2つの重要なモジュールから構成される。
まず、双方向コンディショニングジェネレータ(BCG)は、エンティティと述語の間の多段階的な対話的特徴拡張を促進し、2つの予測間の相互利益を可能にする。
第二に、Random Feature Alignment (RFA) は、事前訓練されたモデルからマルチモーダルな知識を蒸留することで特徴空間を正規化し、統計的事前に頼らずに尾行されたカテゴリにおけるBCTRの能力を高める。
我々は、Visual GenomeとOpen Image V6で一連の実験を行い、BCTRが両方のベンチマークで最先端のパフォーマンスを達成することを実証した。
コードは、論文の受理時に入手できます。
関連論文リスト
- Unbiased Scene Graph Generation by Type-Aware Message Passing on Heterogeneous and Dual Graphs [1.0609815608017066]
これらの問題に対処するために,非バイアスのシーングラフ生成(TA-HDG)を提案する。
対話型および非対話型関係をモデル化するために,対話型グラフ構築法を提案する。
Type-Aware Message Passingは、複雑なインタラクションの理解を強化する。
論文 参考訳(メタデータ) (2024-11-20T12:54:47Z) - Personalized Behavior-Aware Transformer for Multi-Behavior Sequential
Recommendation [25.400756652696895]
マルチビヘイビアシーケンスレコメンデーション(MBSR)問題に対するパーソナライズされた行動認識変換フレームワーク(PBAT)を提案する。
PBATは表現層にパーソナライズされた振舞いパターン生成器を開発し,逐次学習のための動的・識別的な振舞いパターンを抽出する。
3つのベンチマークデータセットで実験を行い、その結果、フレームワークの有効性と解釈性を示した。
論文 参考訳(メタデータ) (2024-02-22T12:03:21Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Prototype-based Embedding Network for Scene Graph Generation [105.97836135784794]
現在のシーングラフ生成(SGG)手法は、コンテキスト情報を探索し、エンティティペア間の関係を予測する。
被写体と対象物の組み合わせが多様であるため、各述語カテゴリーには大きなクラス内変異が存在する。
プロトタイプベースのEmbedding Network (PE-Net) は、エンティティ/述語を、プロトタイプに準拠したコンパクトで独特な表現でモデル化する。
PLは、PE-Netがそのようなエンティティ述語マッチングを効率的に学習するのを助けるために導入され、不明瞭なエンティティ述語マッチングを緩和するためにプロトタイプ正規化(PR)が考案されている。
論文 参考訳(メタデータ) (2023-03-13T13:30:59Z) - Skeleton-based Action Recognition through Contrasting Two-Stream
Spatial-Temporal Networks [11.66009967197084]
本稿では,空間的および時間的モジュールを並列に融合するContrastive GCN-Transformer Network(ConGT)を提案する。
我々は3つのベンチマークデータセットで実験を行い、このモデルが動作認識における最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-01-27T02:12:08Z) - On the Role of Bidirectionality in Language Model Pre-Training [85.14614350372004]
本研究では,次のトークン予測,テキスト入力,ゼロショットプライミング,微調整における双方向性の役割について検討する。
最大6.7Bのパラメータを持つモデルをトレーニングし、スケールで一貫性のある相違点を見つけます。
論文 参考訳(メタデータ) (2022-05-24T02:25:05Z) - Masked Transformer for Neighhourhood-aware Click-Through Rate Prediction [74.52904110197004]
本稿では,近隣相互作用に基づくCTR予測を提案し,そのタスクを異種情報ネットワーク(HIN)設定に組み込む。
周辺地域の表現を高めるために,ノード間のトポロジカルな相互作用を4種類検討する。
本研究では,2つの実世界のデータセットに関する総合的な実験を行い,提案手法が最先端のCTRモデルを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2022-01-25T12:44:23Z) - Reformulating HOI Detection as Adaptive Set Prediction [25.44630995307787]
我々は適応セット予測問題としてHOI検出を再構成する。
本稿では,並列インスタンスとインタラクションブランチを備えた適応型セットベースワンステージフレームワーク(as-net)を提案する。
この手法は、人間のポーズや言語的特徴を必要とせず、従来の最先端の手法を上回ります。
論文 参考訳(メタデータ) (2021-03-10T10:40:33Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。