Fugu-MT 論文翻訳(概要): CAILA: Concept-Aware Intra-Layer Adapters for Compositional Zero-Shot Learning

論文の概要: CAILA: Concept-Aware Intra-Layer Adapters for Compositional Zero-Shot Learning

arxiv url: http://arxiv.org/abs/2305.16681v1
Date: Fri, 26 May 2023 07:02:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-29 16:41:23.989835
Title: CAILA: Concept-Aware Intra-Layer Adapters for Compositional Zero-Shot Learning
Title（参考訳）: CAILA: 合成ゼロショット学習のための概念認識型層内アダプタ
Authors: Zhaoheng Zheng, Haidong Zhu and Ram Nevatia
Abstract要約: 本研究では,新しい属性オブジェクト合成の認識を目的とした合成ゼロショット学習(CZSL)の課題について検討する。本稿では,CLIPエンコーダ層に,大規模言語モデル間で有効であることが証明されたパラメータ効率向上手法であるアダプタを挿入する。提案手法はCAILA(Concept-Aware intra-Layer Adapters)と呼ぶ。
参考スコア（独自算出の注目度）: 22.385670309906352
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Compositionality, the ability to combine existing concepts and generalize towards novel compositions, is a key functionality for intelligent entities. Here, we study the problem of Compositional Zero-Shot Learning (CZSL), which aims at recognizing novel attribute-object compositions. Recent approaches build their systems on top of large-scale Vision-Language Pre-trained (VLP) models, e.g. CLIP, and observe significant improvements. However, these methods treat CLIP as a black box and focus on pre- and post-CLIP operations. Here, we propose to dive deep into the architecture and insert adapters, a parameter-efficient technique proven to be effective among large language models, to each CLIP encoder layer. We further equip adapters with concept awareness so that concept-specific features of "object", "attribute" and "composition" can be extracted. We name our method CAILA, Concept-Aware Intra-Layer Adapters. Quantitative evaluations performed on three popular CZSL datasets, MIT-States, C-GQA, and UT-Zappos, reveal that CAILA achieves double-digit relative improvements against the current state-of-the-art on all benchmarks.
Abstract（参考訳）: 構成性は、既存の概念を組み合わせ、新しい構成へと一般化する能力であり、知的実体にとって重要な機能である。本稿では,新しい属性オブジェクト合成の認識を目的としたコンポジションゼロショット学習(CZSL)の課題について考察する。近年のアプローチでは、大規模なVision-Language Pre-trained (VLP)モデル上にシステムを構築している。しかし、これらのメソッドはCLIPをブラックボックスとして扱い、CLIP前および後操作にフォーカスする。本稿では,CLIPエンコーダの各層に,大規模言語モデルで有効であることが証明されたパラメータ効率の手法であるアダプタを挿入し,アーキテクチャを深く掘り下げることを提案する。さらに,アダプタに概念認識を持たせることで,"object","attribute","composition"の概念特有の特徴を抽出することができる。提案手法をcaila,概念認識層内アダプタと呼ぶ。一般的な3つのCZSLデータセット(MIT-States、C-GQA、UT-Zappos)で実施された定量的評価により、CAILAが現在のベンチマークに対する2桁の相対的な改善を実現していることが明らかになった。

関連論文リスト

CCL-LGS: Contrastive Codebook Learning for 3D Language Gaussian Splatting [53.15827818829865]
2Dプリンシパルに依存しているメソッドは、横断的なセマンティクスの不整合という重要な課題に陥る。 CCL-LGSは、多視点セマンティックキューを統合することで、ビューに一貫性のあるセマンティック監視を実現する新しいフレームワークである。我々の枠組みは、カテゴリー識別性を維持しながら意味的対立を明示的に解決する。
論文参考訳（メタデータ） (2025-05-26T19:09:33Z)
Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。 Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-03-23T03:21:33Z)
Quantifying Interpretability in CLIP Models with Concept Consistency [5.921976812527759]
CLIPのようなモデルにおける注意頭のためのテキスト記述の概念的一貫性について検討する。本稿では,新しい解釈可能性尺度である概念一貫性スコア(CCS)を提案する。我々は,高いCCSヘッドが重要な概念を捕捉し,ドメイン外検出,概念固有の推論,ビデオ言語理解において重要な役割を担っていることを発見した。
論文参考訳（メタデータ） (2025-03-14T05:47:17Z)
Compositional Zero-Shot Learning with Contextualized Cues and Adaptive Contrastive Training [17.893694262999826]
本稿では,コンポジションゼロショット学習(CZSL)における属性とオブジェクト(ULAO)の理解とリンクに関する新しい枠組みを紹介する。 ULAOは2つの革新的なモジュールから構成されている。理解属性とオブジェクト(UAO)モジュールは、逐次原始予測によって原始的理解を改善し、認識されたオブジェクトを属性分類の文脈的ヒントとして活用する。 Linking Attributes and Objects (LAO)モジュールは、調整されたハードネガティブ生成と適応的損失調整を含む新しいコントラスト学習戦略を通じて、属性オブジェクトのリンク理解を改善する。
論文参考訳（メタデータ） (2024-12-10T03:41:20Z)
ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements [0.6990493129893112]
ビジョン言語モデルの最近の進歩は、コンピュータビジョンタスクにおける評価パラダイムを再形成している。これらの基礎モデル、特にCLIPは、オープン語彙コンピュータビジョンタスクの研究を加速してきた。本研究では,CLIPのセマンティックセグメンテーション性能を,新しいモジュールの導入と修正によって向上させる。 ITACLIPはセグメンテーションベンチマークの最先端手法よりも優れている。
論文参考訳（メタデータ） (2024-11-18T20:31:38Z)
Audio-Visual Generalized Zero-Shot Learning using Pre-Trained Large Multi-Modal Models [53.48409081555687]
本研究では,視覚機能のためのCLIP,音声機能のためのCLAPといった,このような大規模な事前学習モデルについて検討する。本稿では,フィードフォワードニューラルネットワークのみに依存する,シンプルで効果的なモデルを提案する。本フレームワークは,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSL上での最先端性能を実現する。
論文参考訳（メタデータ） (2024-04-09T13:39:37Z)
CLIP Can Understand Depth [5.6138460823631835]
我々はCLIPを高密度予測による単眼深度推定の有意な品質に適応させる。我々のモデルは、これまでの最先端のビジョンのみのモデルに匹敵する印象的な性能を示す。
論文参考訳（メタデータ） (2024-02-05T18:09:33Z)
Concept-Guided Prompt Learning for Generalization in Vision-Language Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。 Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文参考訳（メタデータ） (2024-01-15T04:04:47Z)
Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文参考訳（メタデータ） (2023-11-08T05:18:57Z)
Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文参考訳（メタデータ） (2023-10-31T10:45:03Z)
Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文参考訳（メタデータ） (2023-06-12T15:52:02Z)
Prompting Language-Informed Distribution for Compositional Zero-Shot Learning [73.49852821602057]
合成ゼロショット学習(CZSL)タスクは、目に見えない合成視覚概念を認識することを目的としている。本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。 MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文参考訳（メタデータ） (2023-05-23T18:00:22Z)
Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文参考訳（メタデータ） (2023-03-16T09:51:41Z)
StyLIP: Multi-Scale Style-Conditioned Prompt Learning for CLIP-based Domain Generalization [26.08922351077744]
StyLIPは、ドメイン間のCLIPの分類性能を高める、ドメインの一般化のための新しいアプローチである。提案手法は,CLIPの事前学習された視覚エンコーダに埋め込まれた視覚的スタイルとコンテンツ情報を切り離すことを目的とした,ドメインに依存しないプロンプト学習戦略に焦点をあてる。
論文参考訳（メタデータ） (2023-02-18T07:36:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。