論文の概要: Improving Multi-label Recognition using Class Co-Occurrence Probabilities
- arxiv url: http://arxiv.org/abs/2404.16193v1
- Date: Wed, 24 Apr 2024 20:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 15:27:26.457854
- Title: Improving Multi-label Recognition using Class Co-Occurrence Probabilities
- Title(参考訳): クラス共起確率を用いた複数ラベル認識の改善
- Authors: Samyak Rawlekar, Shubhang Bhatnagar, Vishnuvardhan Pogunulu Srinivasulu, Narendra Ahuja,
- Abstract要約: マルチラベル認識(MLR)は、画像内の複数のオブジェクトを識別する。
最近の研究は、タスクのための大規模なテキスト画像データセットに基づいて訓練された視覚言語モデル(VLM)からの情報を活用している。
オブジェクトペアの共起情報を組み込んだ独立分類器の拡張フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.062238472483738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-label Recognition (MLR) involves the identification of multiple objects within an image. To address the additional complexity of this problem, recent works have leveraged information from vision-language models (VLMs) trained on large text-images datasets for the task. These methods learn an independent classifier for each object (class), overlooking correlations in their occurrences. Such co-occurrences can be captured from the training data as conditional probabilities between a pair of classes. We propose a framework to extend the independent classifiers by incorporating the co-occurrence information for object pairs to improve the performance of independent classifiers. We use a Graph Convolutional Network (GCN) to enforce the conditional probabilities between classes, by refining the initial estimates derived from image and text sources obtained using VLMs. We validate our method on four MLR datasets, where our approach outperforms all state-of-the-art methods.
- Abstract(参考訳): マルチラベル認識(MLR)は、画像内の複数のオブジェクトを識別する。
この問題のさらなる複雑さに対処するため、近年の研究では、タスクのための大規模なテキスト画像データセットに基づいて訓練された視覚言語モデル(VLM)の情報を活用している。
これらの手法は、各オブジェクト(クラス)に対して独立した分類器を学習し、その発生時の相関関係を見渡す。
このような共起は、クラス間の条件付き確率としてトレーニングデータから取得することができる。
本稿では,独立分類器の性能向上のために,オブジェクトペアの共起情報を組み込んだ独立分類器の拡張フレームワークを提案する。
グラフ畳み込みネットワーク(GCN)を用いて,VLMを用いて得られた画像とテキストから得られた推定値を精算することにより,クラス間の条件付き確率を強制する。
提案手法を4つのMLRデータセットで検証し,提案手法がすべての最先端手法より優れていることを示す。
関連論文リスト
- Google is all you need: Semi-Supervised Transfer Learning Strategy For Light Multimodal Multi-Task Classification Model [1.8160945635344523]
本研究では,複数のラベルを単一画像にアサインする頑健なマルチラベル分類システムを提案する。
本稿では,高度な画像認識アルゴリズムを自然言語処理(NLP)モデルと組み合わせたマルチモーダル分類器を提案する。
提案する分類モデルは,画像処理のための畳み込みニューラルネットワーク(CNN)と,テキスト記述を解析するためのNLP技術を組み合わせたものである。
論文 参考訳(メタデータ) (2025-01-03T03:11:17Z) - Discriminative Anchor Learning for Efficient Multi-view Clustering [59.11406089896875]
マルチビュークラスタリング(DALMC)のための識別的アンカー学習を提案する。
元のデータセットに基づいて、識別的なビュー固有の特徴表現を学習する。
これらの表現に基づいて異なるビューからアンカーを構築することで、共有アンカーグラフの品質が向上します。
論文 参考訳(メタデータ) (2024-09-25T13:11:17Z) - Self Supervised Correlation-based Permutations for Multi-View Clustering [7.972599673048582]
汎用データのためのエンドツーエンドのディープラーニングベースのMVCフレームワークを提案する。
我々のアプローチは、新しい置換に基づく正準相関目標を用いて有意義な融合データ表現を学習することである。
10つのMVCベンチマークデータセットを用いて、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T08:08:30Z) - Self-Supervised Open-Ended Classification with Small Visual Language
Models [60.23212389067007]
我々は、小さな視覚言語モデルを用いたオープンエンド分類のための数ショットの能力を解放する自己教師型アプローチであるSeCAtを提案する。
約1Bパラメータを持つモデルを使用することで、FrozenやBrobAGeといった、はるかに大きなモデルの少数ショット能力より優れています。
論文 参考訳(メタデータ) (2023-09-30T21:41:21Z) - Convolutional autoencoder-based multimodal one-class classification [80.52334952912808]
1クラス分類は、単一のクラスからのデータを用いた学習のアプローチを指す。
マルチモーダルデータに適した深層学習一クラス分類法を提案する。
論文 参考訳(メタデータ) (2023-09-25T12:31:18Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Object-Aware Self-supervised Multi-Label Learning [9.496981642855769]
マルチラベル学習のためのよりきめ細かい表現を得るために,オブジェクト指向自己スーパービジョン(OASS)法を提案する。
提案手法は,提案しない方式でCSI(Class-Specific Instances)を効率的に生成するために利用することができる。
マルチラベル分類のためのVOC2012データセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-05-14T10:14:08Z) - Information Maximization Clustering via Multi-View Self-Labelling [9.947717243638289]
本稿では,意味のある表現を同時に学習し,対応するアノテーションを割り当てる単一フェーズクラスタリング手法を提案する。
これは、離散表現をネットを通じて自己監督パラダイムに統合することで達成される。
実験の結果,提案手法は,平均精度89.1%,49.0%で最先端技術を上回ることがわかった。
論文 参考訳(メタデータ) (2021-03-12T16:04:41Z) - Generative Multi-Label Zero-Shot Learning [136.17594611722285]
マルチラベルゼロショット学習は、トレーニング中にデータが入手できない複数の見えないカテゴリにイメージを分類する試みである。
我々の研究は、(一般化された)ゼロショット設定におけるマルチラベル機能の問題に最初に取り組みました。
私たちのクロスレベル核融合に基づく生成アプローチは、3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-01-27T18:56:46Z) - Adaptive Prototypical Networks with Label Words and Joint Representation
Learning for Few-Shot Relation Classification [17.237331828747006]
本研究は,少ショット関係分類(FSRC)に焦点を当てる。
クラスプロトタイプの表現にラベル単語を追加するための適応的混合機構を提案する。
FewRelでは、異なる数ショット(FS)設定で実験が行われた。
論文 参考訳(メタデータ) (2021-01-10T11:25:42Z) - A Few-Shot Sequential Approach for Object Counting [63.82757025821265]
画像中のオブジェクトに逐次出席するクラスアテンション機構を導入し,それらの特徴を抽出する。
提案手法は点レベルのアノテーションに基づいて訓練され,モデルのクラス依存的・クラス依存的側面を乱す新しい損失関数を用いる。
本稿では,FSODやMS COCOなど,さまざまなオブジェクトカウント/検出データセットについて報告する。
論文 参考訳(メタデータ) (2020-07-03T18:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。