論文の概要: Learning of Visual Relations: The Devil is in the Tails
- arxiv url: http://arxiv.org/abs/2108.09668v1
- Date: Sun, 22 Aug 2021 08:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 15:45:21.447795
- Title: Learning of Visual Relations: The Devil is in the Tails
- Title(参考訳): 視覚関係の学習:悪魔は尻尾にいる
- Authors: Alakh Desai, Tz-Ying Wu, Subarna Tripathi, Nuno Vasconcelos
- Abstract要約: 視覚的関係学習は、物体群に関する共同推論の性質から、長期にわたる問題である。
本稿では,悪が天国にあるという別の仮説を探求する。
この仮説の下では、モデルをシンプルに保ちながら、長い尾の分布に対処する能力を向上させることで、より良い性能が得られる。
- 参考スコア(独自算出の注目度): 59.737494875502215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Significant effort has been recently devoted to modeling visual relations.
This has mostly addressed the design of architectures, typically by adding
parameters and increasing model complexity. However, visual relation learning
is a long-tailed problem, due to the combinatorial nature of joint reasoning
about groups of objects. Increasing model complexity is, in general, ill-suited
for long-tailed problems due to their tendency to overfit. In this paper, we
explore an alternative hypothesis, denoted the Devil is in the Tails. Under
this hypothesis, better performance is achieved by keeping the model simple but
improving its ability to cope with long-tailed distributions. To test this
hypothesis, we devise a new approach for training visual relationships models,
which is inspired by state-of-the-art long-tailed recognition literature. This
is based on an iterative decoupled training scheme, denoted Decoupled Training
for Devil in the Tails (DT2). DT2 employs a novel sampling approach,
Alternating Class-Balanced Sampling (ACBS), to capture the interplay between
the long-tailed entity and predicate distributions of visual relations. Results
show that, with an extremely simple architecture, DT2-ACBS significantly
outperforms much more complex state-of-the-art methods on scene graph
generation tasks. This suggests that the development of sophisticated models
must be considered in tandem with the long-tailed nature of the problem.
- Abstract(参考訳): 近年,視覚関係のモデル化に多大な努力が払われている。
これは主にアーキテクチャの設計に対処し、通常はパラメータを追加し、モデルの複雑さを増大させる。
しかし、視覚的関係学習は、物体群に関する共同推論の組合せの性質のため、長い問題である。
モデル複雑性の増大は、一般的に、過度に適合する傾向にあるため、長い尾の問題に不適である。
本稿では,悪魔は尻尾にあるという仮説を探究する。
この仮説の下では、モデルをシンプルに保ちながら、長い尾の分布に対処する能力を向上させることで、より良い性能が得られる。
この仮説を検証するために,最先端の長期認識文学に触発された視覚関係モデルの学習手法を考案した。
これは反復的に分離されたトレーニングスキームに基づいており、"Decoupled Training for Devil in the Tails"(DT2)と呼ばれている。
DT2は新しいサンプリング手法であるAlternating Class-Balanced Sampling (ACBS)を採用し、長い尾を持つ実体と視覚関係の述語分布の間の相互作用を捉える。
その結果、DT2-ACBSは極めて単純なアーキテクチャで、シーングラフ生成タスクにおいて、より複雑な最先端メソッドよりもはるかに優れていた。
これは、洗練されたモデルの開発は、問題の長い尾の性質と一致して考える必要があることを示唆している。
関連論文リスト
- Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - RelVAE: Generative Pretraining for few-shot Visual Relationship
Detection [2.2230760534775915]
本研究は,注釈付き関係を必要としない数発述語分類のための最初の事前学習手法を提案する。
VG200とVRDのデータセットについて,数発のトレーニング分割を構築し,定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-27T19:08:08Z) - Orthogonal Uncertainty Representation of Data Manifold for Robust
Long-Tailed Learning [52.021899899683675]
長い尾の分布を持つシナリオでは、尾のサンプルが不足しているため、モデルが尾のクラスを識別する能力は制限される。
モデルロバストネスの長期的現象を改善するために,特徴埋め込みの直交不確実性表現(OUR)とエンドツーエンドのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-10-16T05:50:34Z) - Alleviating the Effect of Data Imbalance on Adversarial Training [26.36714114672729]
長い尾の分布に従うデータセットの逆トレーニングについて検討する。
我々は、新しい対人訓練フレームワーク、Re-balancing Adversarial Training (REAT)を提案する。
論文 参考訳(メタデータ) (2023-07-14T07:01:48Z) - Improving Tail-Class Representation with Centroid Contrastive Learning [145.73991900239017]
本稿では,長い尾を持つ表現学習を改善するために,補間型セントロイドコントラスト学習(ICCL)を提案する。
ICCLは、クラス別サンプルとクラス別サンプルの2つの画像を補間し、ICCLの表現が両方のソースクラスのセントロイドを取得するために使用されるようにモデルを訓練する。
我々の結果は、現実世界の長い尾の分布を持つiNaturalist 2018データセットで2.8%の精度向上を示した。
論文 参考訳(メタデータ) (2021-10-19T15:24:48Z) - Exploring Task Difficulty for Few-Shot Relation Extraction [22.585574542329677]
Few-shot Relation extract (FSRE) は、わずかに注釈付きインスタンスで学習することで、新しい関係を認識することに焦点を当てている。
本稿では,関係ラベル情報を活用することで,より良い表現を学習するコントラスト学習に基づく新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-12T09:40:33Z) - A Multi-Level Attention Model for Evidence-Based Fact Checking [58.95413968110558]
シーケンス構造をトレーニング可能な,シンプルなモデルを提案する。
Fact extract and VERification のための大規模データセットの結果、我々のモデルはグラフベースのアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-02T05:40:12Z) - RH-Net: Improving Neural Relation Extraction via Reinforcement Learning
and Hierarchical Relational Searching [2.1828601975620257]
本稿では、強化学習と階層型関係探索モジュールを用いて関係抽出を改善するRH-Netという新しいフレームワークを提案する。
次に、データリッチクラスとデータポーアクラス間の相関インスタンスのセマンティクスを共有する階層的関係探索モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-27T12:50:27Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。