論文の概要: Rethinking Batch Sample Relationships for Data Representation: A
Batch-Graph Transformer based Approach
- arxiv url: http://arxiv.org/abs/2211.10622v1
- Date: Sat, 19 Nov 2022 08:46:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 19:56:09.320720
- Title: Rethinking Batch Sample Relationships for Data Representation: A
Batch-Graph Transformer based Approach
- Title(参考訳): データ表現のためのバッチサンプル関係再考:バッチグラフ変換に基づくアプローチ
- Authors: Xixi Wang, Bo Jiang, Xiao Wang, Bin Luo
- Abstract要約: ミニバッチサンプル表現のための単純で柔軟なバッチグラフ変換器(BGFormer)を設計する。
視覚と意味の両方の観点から、画像サンプルの関係を深く捉えている。
4つの一般的なデータセットに対する大規模な実験により、提案モデルの有効性が示された。
- 参考スコア(独自算出の注目度): 16.757917001089762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploring sample relationships within each mini-batch has shown great
potential for learning image representations. Existing works generally adopt
the regular Transformer to model the visual content relationships, ignoring the
cues of semantic/label correlations between samples. Also, they generally adopt
the "full" self-attention mechanism which are obviously redundant and also
sensitive to the noisy samples. To overcome these issues, in this paper, we
design a simple yet flexible Batch-Graph Transformer (BGFormer) for mini-batch
sample representations by deeply capturing the relationships of image samples
from both visual and semantic perspectives. BGFormer has three main aspects.
(1) It employs a flexible graph model, termed Batch Graph to jointly encode the
visual and semantic relationships of samples within each mini-batch. (2) It
explores the neighborhood relationships of samples by borrowing the idea of
sparse graph representation which thus performs robustly, w.r.t., noisy
samples. (3) It devises a novel Transformer architecture that mainly adopts
dual structure-constrained self-attention (SSA), together with graph
normalization, FFN, etc, to carefully exploit the batch graph information for
sample tokens (nodes) representations. As an application, we apply BGFormer to
the metric learning tasks. Extensive experiments on four popular datasets
demonstrate the effectiveness of the proposed model.
- Abstract(参考訳): 各ミニバッチ内のサンプル関係の探索は、画像表現を学習する大きな可能性を示している。
既存の作業は一般的に、サンプル間のセマンティック/ラベル相関の手がかりを無視して、視覚的コンテンツ関係をモデル化するために通常のトランスフォーマーを採用している。
また、彼らは一般的に、明らかに冗長でノイズの多いサンプルに敏感な「完全な」自己認識メカニズムを採用しています。
これらの課題を克服するために,視覚と意味の両方の観点から画像サンプルの関係を深く捉えることで,ミニバッチサンプル表現のための単純で柔軟なバッチグラフ変換器(BGFormer)を設計する。
BGFormerには3つの主な側面がある。
1) 各ミニバッチ内のサンプルの視覚的および意味的関係を共同符号化するために,バッチグラフと呼ばれるフレキシブルグラフモデルを用いる。
2) サンプルの近傍関係をスパースグラフ表現の概念を借用して探索し, ノイズのあるサンプルを頑健に処理する。
(3) サンプルトークン(ノード)表現のバッチグラフ情報を慎重に活用するため, グラフ正規化やFFNなどとともに, 二重構造制約型自己アテンション(SSA)を主とする新しいトランスフォーマーアーキテクチャを考案した。
アプリケーションとして,メトリクス学習タスクにBGFormerを適用する。
4つの一般的なデータセットに対する大規模な実験は、提案モデルの有効性を示す。
関連論文リスト
- DSGG: Dense Relation Transformer for an End-to-end Scene Graph Generation [13.058196732927135]
シーングラフ生成は、画像内のオブジェクト間の詳細な空間的および意味的な関係をキャプチャすることを目的としている。
既存のTransformerベースのメソッドは、オブジェクトに対して異なるクエリを使用し、述語するか、関係トリプレットに対して全体的クエリを利用する。
本稿では,シーングラフ検出を直接グラフ予測問題とみなす,DSGGと呼ばれるトランスフォーマーベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-21T23:43:30Z) - On the Equivalence of Graph Convolution and Mixup [70.0121263465133]
本稿では,グラフ畳み込みと混合手法の関係について検討する。
2つの穏やかな条件の下では、グラフの畳み込みはMixupの特別な形式と見なすことができる。
グラフ畳み込みネットワーク(GCN)と単純化グラフ畳み込み(SGC)をミックスアップの形で表現できることを証明し、数学的にこの等価性を確立する。
論文 参考訳(メタデータ) (2023-09-29T23:09:54Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - GVdoc: Graph-based Visual Document Classification [17.350393956461783]
グラフに基づく文書分類モデルであるGVdocを提案する。
提案手法では,そのレイアウトに基づいて文書グラフを生成し,グラフニューラルネットワークを用いてノードとグラフの埋め込みを学習する。
パラメータが少なくても、我々のモデルは分布外データ上で最先端のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T19:23:20Z) - MSVQ: Self-Supervised Learning with Multiple Sample Views and Queues [10.327408694770709]
我々は、新しいシンプルなフレームワーク、すなわちMultiple Sample Views and Queues(MSVQ)を提案する。
2つの相補的および対称的アプローチを利用して3つのソフトラベルをオンザフライで共同構築する。
学生ネットワークは、サンプル間の類似性関係を模倣するので、学生ネットワークはデータセット内の偽陰性サンプルをより柔軟に識別できる。
論文 参考訳(メタデータ) (2023-05-09T12:05:14Z) - Iterative Scene Graph Generation with Generative Transformers [6.243995448840211]
シーングラフは、エンティティ(オブジェクト)とその空間関係をグラフィカルなフォーマットで符号化することで、シーンのリッチで構造化された表現を提供する。
現在のアプローチでは、シーン内のオブジェクト間のすべての可能なエッジのラベル付けを通じてシーングラフを生成する、世代別分類アプローチを採用している。
この研究は、リンク予測を超えたシーングラフを生成するための生成トランスフォーマーベースのアプローチを導入する。
論文 参考訳(メタデータ) (2022-11-30T00:05:44Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - ACTIVE:Augmentation-Free Graph Contrastive Learning for Partial
Multi-View Clustering [52.491074276133325]
部分的マルチビュークラスタリングの問題を解決するために,拡張自由グラフコントラスト学習フレームワークを提案する。
提案手法は、インスタンスレベルのコントラスト学習と欠落データ推論をクラスタレベルに高め、個々の欠落データがクラスタリングに与える影響を効果的に軽減する。
論文 参考訳(メタデータ) (2022-03-01T02:32:25Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。