論文の概要: Separated Inter/Intra-Modal Fusion Prompts for Compositional Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2501.17171v1
- Date: Wed, 22 Jan 2025 03:49:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-02 07:52:48.815142
- Title: Separated Inter/Intra-Modal Fusion Prompts for Compositional Zero-Shot Learning
- Title(参考訳): 合成ゼロショット学習のためのインター/イントラモード融合プロンプトの分離
- Authors: Sua Jung,
- Abstract要約: 合成ゼロショット学習(CZSL)は、意味や状態とオブジェクトの組み合わせの微妙な違いを認識することを目的としている。
既存の手法では、プロンプト設定や、事前訓練されたビジョンランゲージモデルをチューニングするためのプロンプトの使用に重点を置いていた。
Intra-Modality Fusion Synthesizer を用いた多様なPrompt Learning を利用して属性認識性能を向上させる手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Compositional Zero-Shot Learning (CZSL) aims to recognize subtle differences in meaning or the combination of states and objects through the use of known and unknown concepts during training. Existing methods either focused on prompt configuration or on using prompts to tune the pre-trained Vision-Language model. However, these methods faced challenges in accurately identifying subtle differences in meaning or combining states with objects. To jointly eradicate the above issues and construct an efficient and effective CZSL technique, we suggest a method to improve attribute recognition performance by utilizing diverse Prompt Learning with an Inter/Intra-Modality Fusion Synthesizer in scene understanding involving subtle semantic differences and multiple objects.
- Abstract(参考訳): 合成ゼロショット学習(CZSL)は、学習中に既知の概念や未知の概念を用いることで、意味や状態とオブジェクトの組み合わせの微妙な違いを認識することを目的としている。
既存の手法では、プロンプト設定や、事前訓練されたビジョンランゲージモデルをチューニングするためのプロンプトの使用に重点を置いていた。
しかし、これらの手法は、意味の微妙な違いを正確に識別したり、状態と物体を結合するという課題に直面した。
上記の問題を共同で根絶し,効率的かつ効率的なCZSL手法を構築するために,微妙な意味的相違と複数のオブジェクトを含むシーン理解において,インタートラモダリティ融合合成器を用いた多様なプロンプト学習を活用することにより,属性認識性能を向上させる手法を提案する。
関連論文リスト
- Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Mitigating Object Dependencies: Improving Point Cloud Self-Supervised Learning through Object Exchange [50.45953583802282]
我々は,ポイントクラウドシーン理解のための新たな自己教師型学習(SSL)戦略を導入する。
このアプローチでは、オブジェクトパターンとコンテキストキューの両方を活用して、堅牢な機能を生成します。
提案手法は既存のSSL技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-11T06:39:53Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Token-Level Contrastive Learning with Modality-Aware Prompting for Multimodal Intent Recognition [29.523405624632378]
マルチモーダルな意図認識の課題に対処するために,TCL-MAP(Modality-Aware prompting)を用いたトークンレベルのコントラスト学習手法を提案する。
提案したTCLは,モダリティを意識したプロンプトとグラウンドの真理ラベルに基づいて,拡張サンプルを構築し,NT-Xent損失をラベルトークンに用いた。
本手法は最先端の手法と比較して顕著な改善を実現している。
論文 参考訳(メタデータ) (2023-12-22T13:03:23Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Decomposed Soft Prompt Guided Fusion Enhancing for Compositional
Zero-Shot Learning [15.406125901927004]
本稿では、視覚言語モデル(VLM)を組み込んで、不明瞭な合成認識を実現することによって、DFSP(Decomposed Fusion with Soft Prompt)1という新しいフレームワークを提案する。
具体的には、DFSPは学習可能なソフトプロンプトと状態とオブジェクトのベクトル結合を構築し、それらの結合表現を確立する。
さらに、言語とイメージブランチの間にクロスモーダル融合モジュールが設計されており、画像の特徴ではなく、言語機能間で状態とオブジェクトを分解する。
論文 参考訳(メタデータ) (2022-11-19T12:29:12Z) - Semantic Interactive Learning for Text Classification: A Constructive
Approach for Contextual Interactions [0.0]
本稿では,テキスト領域に対するセマンティック対話学習という新しいインタラクションフレームワークを提案する。
構築的および文脈的フィードバックを学習者に取り入れることで、人間と機械間のよりセマンティックなアライメントを実現するアーキテクチャを見つけることができる。
本研究では,人間の概念的修正を非外挿訓練例に翻訳するのに有効なSemanticPushという手法を提案する。
論文 参考訳(メタデータ) (2022-09-07T08:13:45Z) - Learning Using Privileged Information for Zero-Shot Action Recognition [15.9032110752123]
本稿では,オブジェクトのセマンティクスを特権情報として利用し,セマンティクスのギャップを狭める手法を提案する。
オリンピック・スポーツ、HMDB51、UCF101データセットの実験では、提案手法が最先端の手法よりも大きなマージンで優れていることが示されている。
論文 参考訳(メタデータ) (2022-06-17T08:46:09Z) - Integrating Language Guidance into Vision-based Deep Metric Learning [78.18860829585182]
埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。
これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。
これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
論文 参考訳(メタデータ) (2022-03-16T11:06:50Z) - Multi-Knowledge Fusion for New Feature Generation in Generalized
Zero-Shot Learning [4.241513887019675]
本稿では,複数知識からより汎用的な特徴を学習するための新しい生成的zsl法を提案する。
提案手法は,複数のZSLタスクに対する多数のベンチマークにおいて,既存の最先端手法と比較して,性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-02-23T09:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。