論文の概要: TsCA: On the Semantic Consistency Alignment via Conditional Transport for Compositional Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2408.08703v1
- Date: Fri, 16 Aug 2024 12:30:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 15:35:21.414258
- Title: TsCA: On the Semantic Consistency Alignment via Conditional Transport for Compositional Zero-Shot Learning
- Title(参考訳): TsCA:コンポジションゼロショット学習のためのコンディショナルトランスポートによるセマンティック一貫性アライメントについて
- Authors: Miaoge Li, Jingcai Guo, Richard Yi Da Xu, Dongsheng Wang, Xiaofeng Cao, Song Guo,
- Abstract要約: 本稿では、コンポジションゼロショット学習(CZSL)における条件伝達(CT)理論とそのホモロジーを視覚・セマンティック相互作用に再考する。
本稿では,これらの問題によく適応する新しいTrisets Consistency Alignmentフレームワーク(TsCA)を提案する。
我々は、CTプランをオープンワールド設定に拡張し、モデルが実現不可能なペアを効果的にフィルタリングできるようにする。
- 参考スコア(独自算出の注目度): 25.177070774144205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositional Zero-Shot Learning (CZSL) aims to recognize novel \textit{state-object} compositions by leveraging the shared knowledge of their primitive components. Despite considerable progress, effectively calibrating the bias between semantically similar multimodal representations, as well as generalizing pre-trained knowledge to novel compositional contexts, remains an enduring challenge. In this paper, our interest is to revisit the conditional transport (CT) theory and its homology to the visual-semantics interaction in CZSL and further, propose a novel Trisets Consistency Alignment framework (dubbed TsCA) that well-addresses these issues. Concretely, we utilize three distinct yet semantically homologous sets, i.e., patches, primitives, and compositions, to construct pairwise CT costs to minimize their semantic discrepancies. To further ensure the consistency transfer within these sets, we implement a cycle-consistency constraint that refines the learning by guaranteeing the feature consistency of the self-mapping during transport flow, regardless of modality. Moreover, we extend the CT plans to an open-world setting, which enables the model to effectively filter out unfeasible pairs, thereby speeding up the inference as well as increasing the accuracy. Extensive experiments are conducted to verify the effectiveness of the proposed method.
- Abstract(参考訳): 合成ゼロショット学習 (CZSL) は, 基本コンポーネントの共有知識を活用することで, 新規な \textit{state-object} 合成を認識することを目的としている。
かなりの進歩にもかかわらず、意味的に類似したマルチモーダル表現間のバイアスを効果的に調整し、事前学習された知識を新しい構成文脈に一般化することは、持続的な課題である。
本稿では,条件伝達(CT)理論とそのホモロジーをCZSLにおける視覚・セマンティック相互作用に再考すること,さらにこれらの問題によく適応する新しい三値整合性フレームワーク(TsCA)を提案する。
具体的には、パッチ、プリミティブ、コンポジションの3つの異なる意味的相同性集合を用いて、その意味的相違を最小限に抑えるために、ペアワイズCTコストを構築する。
これらの集合内の整合性伝達をさらに確実にするため、モダリティに関係なく、輸送フロー中の自己マッピングの特徴的整合性を保証することによって学習を洗練させるサイクル整合性制約を実装した。
さらに,CTプランをオープンワールド設定に拡張することで,非実現不可能なペアを効果的にフィルタリングし,推論を高速化し,精度を向上する。
提案手法の有効性を検証するため, 広範囲な実験を行った。
関連論文リスト
- TS-TCD: Triplet-Level Cross-Modal Distillation for Time-Series Forecasting Using Large Language Models [15.266543423942617]
本稿では,3段階のクロスモーダルな知識蒸留機構を包括的に導入する新しいフレームワークTS-TCDを提案する。
分離されたアライメント技術に焦点を当てた以前の作業とは異なり、私たちのフレームワークは体系的に統合されます。
ベンチマークタイムシリーズの実験では、TS-TCDは最先端の結果を達成し、精度と堅牢性の両方で従来の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-23T12:57:24Z) - Temporal Order Preserved Optimal Transport-based Cross-modal Knowledge Transfer Learning for ASR [36.250914527327005]
事前訓練された言語モデルから音響モデルに言語知識を移すことにより,音声認識の性能を大幅に向上させることが示されている。
ASRのための時間順序保存OT(TOT)に基づくクロスモーダルアライメント・アンド・ナレッジ・トランスファー(CAKT)を提案する。
論文 参考訳(メタデータ) (2024-09-03T19:11:15Z) - Synergistic Anchored Contrastive Pre-training for Few-Shot Relation
Extraction [4.7220779071424985]
Few-shot Relation extract (FSRE) は、ラベル付きコーパスのスパースセットから事実を抽出することを目的としている。
近年の研究では、事前学習言語モデルを用いたFSREの有望な結果が示されている。
本稿では,新しい相乗的アンカー付きコントラスト事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-19T10:16:24Z) - SCD-Net: Spatiotemporal Clues Disentanglement Network for
Self-supervised Skeleton-based Action Recognition [39.99711066167837]
本稿では、SCD-Net(Stemporal Clues Disentanglement Network)という、対照的な学習フレームワークを紹介する。
具体的には,これらのシーケンスを特徴抽出器と統合し,空間領域と時間領域からそれぞれ明確な手がかりを導出する。
我々は,NTU-+D (60&120) PKU-MMDI (&I) データセットの評価を行い,行動認識,行動検索,伝達学習などの下流タスクを網羅した。
論文 参考訳(メタデータ) (2023-09-11T21:32:13Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - ProCC: Progressive Cross-primitive Compatibility for Open-World
Compositional Zero-Shot Learning [29.591615811894265]
Open-World Composal Zero-shot Learning (OW-CZSL) は、コンポジション空間に先立って、画像中の状態とオブジェクトプリミティブの新規なコンポジションを認識することを目的としている。
本稿では,OW-CZSLタスクの学習過程を模倣する,Progressive Cross-primitive Compatibility (ProCC) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-19T10:09:46Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。
初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-06-04T14:39:03Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z) - 3D Human Action Representation Learning via Cross-View Consistency
Pursuit [52.19199260960558]
教師なし3次元骨格に基づく行動表現(CrosSCLR)のためのクロスビューコントラスト学習フレームワークを提案する。
CrosSCLRは、シングルビューのコントラスト学習(SkeletonCLR)とクロスビューの一貫した知識マイニング(CVC-KM)モジュールの両方で構成されています。
論文 参考訳(メタデータ) (2021-04-29T16:29:41Z) - Bottom-Up Temporal Action Localization with Mutual Regularization [107.39785866001868]
TALの最先端の解決策は、3つの行動指示相のフレームレベルの確率を評価することである。
学習手順を相互に規則化するための2つの規則化用語を導入する。
実験は2つの人気のTALデータセット、THUMOS14とActivityNet1.3で行われている。
論文 参考訳(メタデータ) (2020-02-18T03:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。