論文の概要: Unified Framework for Open-World Compositional Zero-shot Learning
- arxiv url: http://arxiv.org/abs/2412.04083v1
- Date: Thu, 05 Dec 2024 11:36:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:40:43.657062
- Title: Unified Framework for Open-World Compositional Zero-shot Learning
- Title(参考訳): オープンワールド構成ゼロショット学習のための統一フレームワーク
- Authors: Hirunima Jayasekara, Khoi Pham, Nirat Saini, Abhinav Shrivastava,
- Abstract要約: Open-World Composal Zero-Shot Learning (OW-CZSL)は、既知のプリミティブやエンティティの新規な構成を認識するという課題に対処する。
推論段階における全ての可能な構成の徹底的な探索に伴う計算負担を軽減することを目的とした,新しいモジュールを提案する。
提案モデルでは、3つのデータセットでOW-CZSLの最先端性を達成し、2つのデータセットでLLVM(Large Vision Language Models)を上回ります。
- 参考スコア(独自算出の注目度): 39.521304311470146
- License:
- Abstract: Open-World Compositional Zero-Shot Learning (OW-CZSL) addresses the challenge of recognizing novel compositions of known primitives and entities. Even though prior works utilize language knowledge for recognition, such approaches exhibit limited interactions between language-image modalities. Our approach primarily focuses on enhancing the inter-modality interactions through fostering richer interactions between image and textual data. Additionally, we introduce a novel module aimed at alleviating the computational burden associated with exhaustive exploration of all possible compositions during the inference stage. While previous methods exclusively learn compositions jointly or independently, we introduce an advanced hybrid procedure that leverages both learning mechanisms to generate final predictions. Our proposed model, achieves state-of-the-art in OW-CZSL in three datasets, while surpassing Large Vision Language Models (LLVM) in two datasets.
- Abstract(参考訳): Open-World Composal Zero-Shot Learning (OW-CZSL)は、既知のプリミティブやエンティティの新規な構成を認識するという課題に対処する。
先行研究は言語知識を認識に用いてきたが、そのような手法は言語と画像のモダリティの間の限られた相互作用を示す。
本手法は,画像とテキストデータ間のよりリッチなインタラクションを促進することによって,モダリティ間相互作用の強化に重点を置いている。
さらに,推測段階におけるすべての可能な構成の徹底的な探索に伴う計算負担を軽減することを目的とした,新しいモジュールを提案する。
従来の手法ではコンポジションを共同あるいは独立に学習する必要があったが,いずれの学習メカニズムも活用して最終的な予測を生成する,高度なハイブリッド手法を導入する。
提案モデルでは、3つのデータセットでOW-CZSLの最先端性を達成し、2つのデータセットでLarge Vision Language Models (LLVM)を上回った。
関連論文リスト
- Towards Spoken Language Understanding via Multi-level Multi-grained Contrastive Learning [50.1035273069458]
音声言語理解(SLU)はタスク指向対話システムにおける中核的なタスクである。
本稿では,発話レベル,スロットレベル,単語レベルを含む3段階のコントラスト学習を実現するためのマルチレベルMMCLフレームワークを提案する。
本フレームワークは,2つの公開マルチインテリジェントSLUデータセットに対して,最先端の新たな結果を実現する。
論文 参考訳(メタデータ) (2024-05-31T14:34:23Z) - Towards Zero-shot Human-Object Interaction Detection via Vision-Language
Integration [14.678931157058363]
本稿では,ゼロショットHOI検出を改善するために,視覚言語モデルの知識を効果的に統合する新しいフレームワーク「KI2HOI」を提案する。
より包括的な視覚表現を生成するための効果的な付加的自己認識機構を開発する。
我々のモデルは、様々なゼロショットおよびフル教師付き設定において、以前の手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-12T02:07:23Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - Hierarchical Aligned Multimodal Learning for NER on Tweet Posts [12.632808712127291]
マルチモーダルなエンティティ認識(MNER)が注目されている。
画像とテキストのシーケンスを動的に調整する新しい手法を提案する。
2つのオープンデータセットで実験を行い、その結果と詳細な分析により、我々のモデルの利点を実証した。
論文 参考訳(メタデータ) (2023-05-15T06:14:36Z) - Decomposed Soft Prompt Guided Fusion Enhancing for Compositional
Zero-Shot Learning [15.406125901927004]
本稿では、視覚言語モデル(VLM)を組み込んで、不明瞭な合成認識を実現することによって、DFSP(Decomposed Fusion with Soft Prompt)1という新しいフレームワークを提案する。
具体的には、DFSPは学習可能なソフトプロンプトと状態とオブジェクトのベクトル結合を構築し、それらの結合表現を確立する。
さらに、言語とイメージブランチの間にクロスモーダル融合モジュールが設計されており、画像の特徴ではなく、言語機能間で状態とオブジェクトを分解する。
論文 参考訳(メタデータ) (2022-11-19T12:29:12Z) - ProCC: Progressive Cross-primitive Compatibility for Open-World
Compositional Zero-Shot Learning [29.591615811894265]
Open-World Composal Zero-shot Learning (OW-CZSL) は、コンポジション空間に先立って、画像中の状態とオブジェクトプリミティブの新規なコンポジションを認識することを目的としている。
本稿では,OW-CZSLタスクの学習過程を模倣する,Progressive Cross-primitive Compatibility (ProCC) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-19T10:09:46Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Learning the Compositional Visual Coherence for Complementary
Recommendations [62.60648815930101]
補完的なレコメンデーションは、ユーザーが獲得したアイテムと補完的で互換性のある製品提案を提供することを目的としている。
本研究では,グローバルコンテンツとセマンティックコンテンツの両方に包括的コンポジションコヒーレンスをモデル化する新しいコンテント注意ニューラルネットワーク(CANN)を提案する。
論文 参考訳(メタデータ) (2020-06-08T06:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。