論文の概要: RelTransformer: Balancing the Visual Relationship Detection from Local
Context, Scene and Memory
- arxiv url: http://arxiv.org/abs/2104.11934v1
- Date: Sat, 24 Apr 2021 12:04:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 15:00:56.995936
- Title: RelTransformer: Balancing the Visual Relationship Detection from Local
Context, Scene and Memory
- Title(参考訳): RelTransformer: ローカルコンテキスト,シーン,メモリからの視覚的関係検出のバランシング
- Authors: Jun Chen, Aniket Agarwal, Sherif Abdelkarim, Deyao Zhu, Mohamed
Elhoseiny
- Abstract要約: 複数の画像レベルからリッチなセマンティック特徴を用いた関係予測を行うRelTransformerと呼ばれる新しいフレームワークを提案する。
GQA-LTの精度は27.4%向上し,尾部関係予測における最良基準となる。
- 参考スコア(独自算出の注目度): 24.085223165006212
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual relationship recognition (VRR) is a fundamental scene understanding
task. The structure that VRR provides is essential to improve the AI
interpretability in downstream tasks such as image captioning and visual
question answering. Several recent studies showed that the long-tail problem in
VRR is even more critical than that in object recognition due to the
compositional complexity and structure. To overcome this limitation, we propose
a novel transformer-based framework, dubbed as RelTransformer, which performs
relationship prediction using rich semantic features from multiple image
levels. We assume that more abundantcon textual features can generate more
accurate and discriminative relationships, which can be useful when sufficient
training data are lacking. The key feature of our model is its ability to
aggregate three different-level features (local context, scene, and
dataset-level) to compositionally predict the visual relationship. We evaluate
our model on the visual genome and two "long-tail" VRR datasets, GQA-LT and
VG8k-LT. Extensive experiments demonstrate that our RelTransformer could
improve over the state-of-the-art baselines on all the datasets. In addition,
our model significantly improves the accuracy of GQA-LT by 27.4% upon the best
baselines on tail-relationship prediction. Our code is available in
https://github.com/Vision-CAIR/RelTransformer.
- Abstract(参考訳): 視覚的関係認識(VRR)はシーン理解の基本課題である。
VRRが提供する構造は、画像キャプションや視覚的質問応答といった下流タスクにおけるAI解釈可能性を改善するために不可欠である。
近年の研究では、vrrのロングテール問題は、構成の複雑さと構造のため、物体認識においてさらに重要であることが示されている。
この制限を克服するために、複数の画像レベルからリッチなセマンティック特徴を用いた関係予測を行うRelTransformerと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
より豊富なテキスト特徴は、十分なトレーニングデータが欠如している場合に有用である、より正確で差別的な関係を生み出すことができると仮定する。
我々のモデルの主な特徴は、3つの異なるレベルの特徴(ローカルコンテキスト、シーン、データセットレベル)を集約して視覚的関係を合成する能力である。
我々は、視覚ゲノムモデルと、GQA-LTとVG8k-LTの2つの「ロングテール」VRRデータセットの評価を行った。
さらに,本モデルでは,尾部関係予測に基づく最良基準値に対して,GQA-LTの精度を27.4%向上させる。
私たちのコードはhttps://github.com/Vision-CAIR/RelTransformerで利用可能です。
関連論文リスト
- A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions [6.231370972617915]
ゼロショット参照表現理解は、提供されるテキストプロンプトに対応する画像内のバウンディングボックスをローカライズすることを目的としている。
既存の視覚言語アライメントモデル、例えばCLIPは両方の側面で苦労しているため、このタスクに直接使用することはできない。
我々は、大きな基礎モデルを活用して、画像とテキストの両方を(オブジェクト、述語、オブジェクト)の形式で三つ子に分解する。
論文 参考訳(メタデータ) (2023-11-28T18:55:37Z) - RLIPv2: Fast Scaling of Relational Language-Image Pre-training [53.21796397618875]
本稿では,大規模な擬似ラベル付きシーングラフデータに対する事前学習のリレーショナルスケーリングを可能にする高速収束モデルRLIPv2を提案する。
非対称言語画像融合 (ALIF) は、より早く、より深く分岐したクロスモーダル融合と、スパシファイド言語による符号化を容易にする。
RLIPv2は、3つのベンチマークで、完全な微調整、少数ショット、ゼロショット設定で、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-08-18T07:17:09Z) - When and why vision-language models behave like bags-of-words, and what
to do about it? [39.90099818890488]
我々は、VLMが様々な種類の関係、属性、順序を理解する能力を評価するために、属性、関係、順序のベンチマークを作成します。
AROは、以前の構成性のベンチマークよりも桁違いに大きく、5万以上のテストケースがある。
我々は、最先端のVLMが、リレーショナル理解が不十分で、オブジェクトを属性にリンクする場合に、ブルンダーが可能であることを示し、注文感度の深刻な欠如を示す。
論文 参考訳(メタデータ) (2022-10-04T22:13:25Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Relation Transformer Network [25.141472361426818]
本稿では,シーングラフ生成と関係予測のためのトランスフォーメーションを提案する。
我々はトランスのエンコーダ・デコーダアーキテクチャを利用して,ノードとエッジのリッチな機能埋め込みを行う。
我々の関係予測モジュールは学習ノードとエッジ埋め込みから有向関係を分類する。
論文 参考訳(メタデータ) (2020-04-13T20:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。