論文の概要: Compositional Zero-shot Learning via Progressive Language-based
Observations
- arxiv url: http://arxiv.org/abs/2311.14749v1
- Date: Thu, 23 Nov 2023 10:14:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 09:50:04.180102
- Title: Compositional Zero-shot Learning via Progressive Language-based
Observations
- Title(参考訳): プログレッシブ言語に基づく合成ゼロショット学習
- Authors: Lin Li, Guikun Chen, Jun Xiao, Long Chen
- Abstract要約: 本稿では,プログレッシブ言語に基づく観察(PLO)を提案する。
PLOは、事前に訓練された視覚言語モデル(VLM)を採用し、観察能力を持つモデルを強化する。
- 参考スコア(独自算出の注目度): 14.85007028612901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositional zero-shot learning aims to recognize unseen state-object
compositions by leveraging known primitives (state and object) during training.
However, effectively modeling interactions between primitives and generalizing
knowledge to novel compositions remains a perennial challenge. There are two
key factors: object-conditioned and state-conditioned variance, i.e., the
appearance of states (or objects) can vary significantly when combined with
different objects (or states). For instance, the state "old" can signify a
vintage design for a "car" or an advanced age for a "cat". In this paper, we
argue that these variances can be mitigated by predicting composition
categories based on pre-observed primitive. To this end, we propose Progressive
Language-based Observations (PLO), which can dynamically determine a better
observation order of primitives. These observations comprise a series of
concepts or languages that allow the model to understand image content in a
step-by-step manner. Specifically, PLO adopts pre-trained vision-language
models (VLMs) to empower the model with observation capabilities. We further
devise two variants: 1) PLO-VLM: a two-step method, where a pre-observing
classifier dynamically determines the observation order of two primitives. 2)
PLO-LLM: a multi-step scheme, which utilizes large language models (LLMs) to
craft composition-specific prompts for step-by-step observing. Extensive
ablations on three challenging datasets demonstrate the superiority of PLO
compared with state-of-the-art methods, affirming its abilities in
compositional recognition.
- Abstract(参考訳): compositional zero-shot learningは、トレーニング中に既知のプリミティブ(状態とオブジェクト)を活用することで、目に見えない状態オブジェクトの構成を認識することを目的としている。
しかしながら、プリミティブ間の相互作用を効果的にモデル化し、新しい構成に知識を一般化することは、年次課題である。
オブジェクト条件付きおよび状態条件付き分散、すなわち、状態(またはオブジェクト)の出現は、異なるオブジェクト(または状態)と組み合わせると著しく変化する。
例えば、状態"old"は、"car"のヴィンテージデザインや"cat"の高齢を表すことができる。
本稿では,事前観測されたプリミティブに基づく合成カテゴリの予測により,これらの分散を緩和できると主張する。
そこで本研究では,プリミティブの観測順序を動的に決定できるprogressive language-based observations (plo)を提案する。
これらの観察は、モデルがステップバイステップで画像の内容を理解することを可能にする一連の概念または言語から構成される。
具体的には、PLOは事前に訓練された視覚言語モデル(VLM)を採用し、観察能力を持つモデルを強化する。
さらに2つの変種を考案します
1) PLO-VLM: 予備観測分類器が2つのプリミティブの観測順序を動的に決定する2段階法。
2) PLO-LLM: 大規模言語モデル(LLM)を用いて, ステップバイステップ観測のための合成プロンプトを作成する多段階スキーム。
3つの挑戦的なデータセットに対する大規模な改善は、最先端の手法と比較してPLOの優位性を示し、合成認識におけるその能力を確認している。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Neural Language of Thought Models [18.930227757853313]
我々は、LoTHにインスパイアされた表現と生成の教師なし学習のための新しいアプローチであるNeural Language of Thought Model (NLoTM)を紹介する。
NLoTMは,(1)オブジェクトとその特性に整合した階層的かつ構成可能な離散表現を学習するSemantic Vector-Quantized Variational Autoencoder,(2)意味概念トークンを合成的に生成する自動回帰変換器であるAutoregressive LoT Prior,の2つの重要なコンポーネントから構成される。
我々は、NLoTMを複数の2次元および3次元画像データセット上で評価し、下流タスクにおける優れた性能、分布外一般化、画像生成を示す。
論文 参考訳(メタデータ) (2024-02-02T08:13:18Z) - Mutual Balancing in State-Object Components for Compositional Zero-Shot
Learning [0.0]
合成ゼロショット学習(CZSL)は、目に見えない状態や物体から未知の合成を認識することを目的としている。
そこで本研究では,CZSLのSTate-Object Components (MUST) におけるMUtual Balanceと呼ばれる新しい手法を提案する。
我々のアプローチは、MIT-States、UT-Zappos、C-GQAといった基本的なCZSLフレームワークと組み合わせることで、最先端のCZSLよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-11-19T10:21:22Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - Open-vocabulary Semantic Segmentation with Frozen Vision-Language Models [39.479912987123214]
自己指導型学習は、幅広い視覚的・言語的理解タスクを解く顕著な能力を示した。
Fusionerは軽量なトランスフォーマーベースの融合モジュールで、凍結した視覚表現と言語概念をペアリングする。
提案手法は,任意の視覚モデルと言語モデル,あるいはユニモーダルデータのコーパス上で事前学習したモデルに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-10-27T02:57:26Z) - Learning Primitive-aware Discriminative Representations for Few-shot
Learning [28.17404445820028]
少ないショットラーニングは、いくつかのラベル付き例で、新しいクラスを容易に認識できる分類器を学習することを目的としている。
プリミティブ・マイニング・アンド・リ共振ネットワーク(PMRN)を提案し,プリミティブ・アウェアな表現を学習する。
提案手法は,6つの標準ベンチマークの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-08-20T16:22:22Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z) - Siamese Contrastive Embedding Network for Compositional Zero-Shot
Learning [76.13542095170911]
合成ゼロショット学習(CZSL)は、学習中に目に見える状態と対象から形成される見えない構成を認識することを目的としている。
本稿では,未知の合成認識のための新しいSiamese Contrastive Embedding Network(SCEN)を提案する。
提案手法は,3つの挑戦的ベンチマークデータセットに対して,最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2022-06-29T09:02:35Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。