論文の概要: MADS: Multi-Attribute Document Supervision for Zero-Shot Image Classification
- arxiv url: http://arxiv.org/abs/2503.06847v1
- Date: Mon, 10 Mar 2025 02:16:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:25.592091
- Title: MADS: Multi-Attribute Document Supervision for Zero-Shot Image Classification
- Title(参考訳): MADS: ゼロショット画像分類のためのマルチ属性文書スーパービジョン
- Authors: Xiangyan Qu, Jing Yu, Jiamin Zhuang, Gaopeng Gou, Gang Xiong, Qi Wu,
- Abstract要約: ゼロショット学習は、見知らぬクラスでモデルを訓練し、知識伝達によって見えないクラスを認識することを目的としている。
近年の研究では、百科事典の文書が有用な補助情報を提供することが明らかになっている。
本稿では,文書収集段階とモデル学習段階の両方においてノイズを除去する新しい多属性文書管理フレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.883913835653711
- License:
- Abstract: Zero-shot learning (ZSL) aims to train a model on seen classes and recognize unseen classes by knowledge transfer through shared auxiliary information. Recent studies reveal that documents from encyclopedias provide helpful auxiliary information. However, existing methods align noisy documents, entangled in visual and non-visual descriptions, with image regions, yet solely depend on implicit learning. These models fail to filter non-visual noise reliably and incorrectly align non-visual words to image regions, which is harmful to knowledge transfer. In this work, we propose a novel multi-attribute document supervision framework to remove noises at both document collection and model learning stages. With the help of large language models, we introduce a novel prompt algorithm that automatically removes non-visual descriptions and enriches less-described documents in multiple attribute views. Our proposed model, MADS, extracts multi-view transferable knowledge with information decoupling and semantic interactions for semantic alignment at local and global levels. Besides, we introduce a model-agnostic focus loss to explicitly enhance attention to visually discriminative information during training, also improving existing methods without additional parameters. With comparable computation costs, MADS consistently outperforms the SOTA by 7.2% and 8.2% on average in three benchmarks for document-based ZSL and GZSL settings, respectively. Moreover, we qualitatively offer interpretable predictions from multiple attribute views.
- Abstract(参考訳): ゼロショット学習(ZSL)は、見知らぬクラスでモデルを訓練し、共有補助情報を通じて知識伝達によって未知のクラスを認識することを目的としている。
近年の研究では、百科事典の文書が有用な補助情報を提供することが明らかになっている。
しかし、既存の手法は、視覚的、非視覚的記述に絡み合ったノイズの多い文書を画像領域と整合させるが、暗黙の学習にのみ依存する。
これらのモデルは、知識伝達に有害な非視覚的単語を画像領域に確実に的確に整列させるのに失敗する。
本研究では,文書収集段階とモデル学習段階の両方においてノイズを除去する,新しいマルチ属性文書管理フレームワークを提案する。
大規模言語モデルの助けを借りて、視覚的でない記述を自動的に削除し、複数の属性ビューで記述されていない文書を豊かにする新しいプロンプトアルゴリズムを導入する。
提案モデルであるMADSは,局所的およびグローバルなレベルでの意味的アライメントのための情報デカップリングと意味的相互作用によって,多視点の伝達可能な知識を抽出する。
さらに、トレーニング中の視覚的識別情報への注意力を高めるために、モデル非依存の焦点損失を導入し、追加パラメータなしで既存の手法を改善した。
同等の計算コストで、MADSは文書ベースのZSLとGZSL設定の3つのベンチマークにおいて、SOTAを平均で7.2%、平均8.2%上回っている。
さらに、複数の属性ビューから解釈可能な予測を質的に提供します。
関連論文リスト
- Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。
我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-05T18:52:00Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - I2MVFormer: Large Language Model Generated Multi-View Document
Supervision for Zero-Shot Image Classification [108.83932812826521]
Webスケールのテキストでトレーニングされた大規模言語モデル(LLM)は、学習した知識をさまざまなタスクに再利用する素晴らしい能力を示している。
提案するモデルであるI2MVFormerは,これらのクラスビューを用いたゼロショット画像分類のためのマルチビューセマンティック埋め込みを学習する。
I2MVFormerは、教師なしセマンティック埋め込みを備えたゼロショット画像分類のための3つの公開ベンチマークデータセットに対して、最先端の新たなデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-05T14:11:36Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Semantically Grounded Visual Embeddings for Zero-Shot Learning [17.86691047421871]
本稿では,2ストリームネットワークを用いた共同画像とテキストモデルをプロキシタスクで計算することにより,意味的基盤とリッチな視覚情報を学習することを提案する。
ゼロショット学習のためのジョイント埋め込みと呼ばれる手法を,いくつかのベンチマークデータセットで評価した。
論文 参考訳(メタデータ) (2022-01-03T10:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。