論文の概要: Exploring Long Tail Visual Relationship Recognition with Large
Vocabulary
- arxiv url: http://arxiv.org/abs/2004.00436v7
- Date: Sat, 25 Sep 2021 04:13:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 02:40:45.492659
- Title: Exploring Long Tail Visual Relationship Recognition with Large
Vocabulary
- Title(参考訳): 大語彙を用いたロングテール視覚関係認識の検討
- Authors: Sherif Abdelkarim, Aniket Agarwal, Panos Achlioptas, Jun Chen, Jiaji
Huang, Boyang Li, Kenneth Church, Mohamed Elhoseiny
- Abstract要約: 我々は,Long-Tail Visual Relationship Recognition(LTVRR)の課題に関する最初の大規模研究を行っている。
LTVRRは、ロングテールから得られる構造化された視覚的関係の学習を改善することを目的としている。
VG8K-LTとGQA-LTという2つのLTVRR関連ベンチマークを導入する。
- 参考スコア(独自算出の注目度): 40.51076584921913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several approaches have been proposed in recent literature to alleviate the
long-tail problem, mainly in object classification tasks. In this paper, we
make the first large-scale study concerning the task of Long-Tail Visual
Relationship Recognition (LTVRR). LTVRR aims at improving the learning of
structured visual relationships that come from the long-tail (e.g., "rabbit
grazing on grass"). In this setup, the subject, relation, and object classes
each follow a long-tail distribution. To begin our study and make a future
benchmark for the community, we introduce two LTVRR-related benchmarks, dubbed
VG8K-LT and GQA-LT, built upon the widely used Visual Genome and GQA datasets.
We use these benchmarks to study the performance of several state-of-the-art
long-tail models on the LTVRR setup. Lastly, we propose a visiolinguistic
hubless (VilHub) loss and a Mixup augmentation technique adapted to LTVRR
setup, dubbed as RelMix. Both VilHub and RelMix can be easily integrated on top
of existing models and despite being simple, our results show that they can
remarkably improve the performance, especially on tail classes. Benchmarks,
code, and models have been made available at:
https://github.com/Vision-CAIR/LTVRR.
- Abstract(参考訳): 最近の文献では、主にオブジェクト分類タスクにおいて、ロングテール問題を緩和するためのいくつかのアプローチが提案されている。
本稿では,ltvrr(long-tail visual relationship recognition)の課題について,最初の大規模研究を行う。
LTVRRは、長い尾から来る構造化された視覚的関係(例えば「草の上での放牧」)の学習を改善することを目的としている。
この設定では、主題、関係、およびオブジェクトクラスはそれぞれロングテール分布に従う。
VG8K-LTとGQA-LTという2つのLTVRR関連ベンチマークを,広く使用されているVisual GenomeとGQAデータセット上に構築した。
これらのベンチマークを用いて,ltvrrにおける最先端ロングテールモデルの性能について検討した。
最後に,LTVRRのセットアップに適応したVilHub(visiolinguistic Hubless)損失とMixup拡張手法を提案し,これをRelMixと呼ぶ。
VilHubとRelMixはどちらも既存のモデル上で簡単に統合でき、シンプルであるにもかかわらず、我々の結果は、特にテールクラスにおいて、パフォーマンスを著しく改善できることを示している。
ベンチマーク、コード、モデルはhttps://github.com/Vision-CAIR/LTVRR.comで公開されている。
関連論文リスト
- Large Margin Prototypical Network for Few-shot Relation Classification with Fine-grained Features [30.11073476165794]
関係分類(RC)は、自然言語理解と知識グラフ補完において重要な役割を担っている。
RCに対する従来のアプローチは、機能工学やディープラーニングベースに関わらず、共通タイプの関係を分類する上で有望な性能が得られる。
本稿では,数発学習がRCにとって極めて重要な課題であると考え,数発学習における計量学習の近代的枠組みを改良する。
論文 参考訳(メタデータ) (2024-09-06T03:28:38Z) - LTGC: Long-tail Recognition via Leveraging LLMs-driven Generated Content [17.022005679738733]
尾の認識は、尾のカテゴリから良い表現を学習し、すべてのカテゴリで不均衡に対処する必要があるため、困難である。
そこで本研究では,生成コンテンツを利用した長期認識を実現するための,新たな生成および微調整フレームワークLTGCを提案する。
論文 参考訳(メタデータ) (2024-03-09T09:52:15Z) - The All-Seeing Project V2: Towards General Relation Comprehension of the Open World [58.40101895719467]
本稿では,画像のオブジェクト関係を理解するために設計された新しいモデルとデータセットであるAll-Seeing Project V2を紹介する。
本稿では,テキスト生成,オブジェクトローカライゼーション,関係理解の定式化を関係会話タスクに統合するAll-Seeing Model V2を提案する。
我々のモデルは、画像内の全ての物体を知覚・認識するだけでなく、それらの間の複雑な関係グラフの把握にも優れている。
論文 参考訳(メタデータ) (2024-02-29T18:59:17Z) - Rethink Long-tailed Recognition with Vision Transformers [18.73285611631722]
ビジョントランスフォーマー(ViT)は、長い尾のデータでトレーニングするのが難しい。
ViTは教師なしの方法で一般化された特徴を学習する。
予測分布(英: Predictive Distribution、PDC)は、長手認識のための新しい指標である。
論文 参考訳(メタデータ) (2023-02-28T03:36:48Z) - Improving Tail-Class Representation with Centroid Contrastive Learning [145.73991900239017]
本稿では,長い尾を持つ表現学習を改善するために,補間型セントロイドコントラスト学習(ICCL)を提案する。
ICCLは、クラス別サンプルとクラス別サンプルの2つの画像を補間し、ICCLの表現が両方のソースクラスのセントロイドを取得するために使用されるようにモデルを訓練する。
我々の結果は、現実世界の長い尾の分布を持つiNaturalist 2018データセットで2.8%の精度向上を示した。
論文 参考訳(メタデータ) (2021-10-19T15:24:48Z) - Learning of Visual Relations: The Devil is in the Tails [59.737494875502215]
視覚的関係学習は、物体群に関する共同推論の性質から、長期にわたる問題である。
本稿では,悪が天国にあるという別の仮説を探求する。
この仮説の下では、モデルをシンプルに保ちながら、長い尾の分布に対処する能力を向上させることで、より良い性能が得られる。
論文 参考訳(メタデータ) (2021-08-22T08:59:35Z) - RelTransformer: Balancing the Visual Relationship Detection from Local
Context, Scene and Memory [24.085223165006212]
複数の画像レベルからリッチなセマンティック特徴を用いた関係予測を行うRelTransformerと呼ばれる新しいフレームワークを提案する。
GQA-LTの精度は27.4%向上し,尾部関係予測における最良基準となる。
論文 参考訳(メタデータ) (2021-04-24T12:04:04Z) - ResLT: Residual Learning for Long-tailed Recognition [64.19728932445523]
本稿では,パラメータ空間の側面から,より基本的なロングテール認識の視点を提案する。
すべてのクラスから画像を認識するために最適化されたメインブランチと、medium+tailクラスとtailクラスからのイメージを強化するために徐々に2つの残りのブランチを融合して最適化する。
我々は、CIFAR-10、CIFAR-100、Places、ImageNet、iNaturalist 2018の長期バージョンであるいくつかのベンチマークでこの方法をテストする。
論文 参考訳(メタデータ) (2021-01-26T08:43:50Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。