Fugu-MT 論文翻訳(概要): TsCA: On the Semantic Consistency Alignment via Conditional Transport for Compositional Zero-Shot Learning

論文の概要: TsCA: On the Semantic Consistency Alignment via Conditional Transport for Compositional Zero-Shot Learning

arxiv url: http://arxiv.org/abs/2408.08703v1
Date: Fri, 16 Aug 2024 12:30:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-19 15:35:21.414258
Title: TsCA: On the Semantic Consistency Alignment via Conditional Transport for Compositional Zero-Shot Learning
Title（参考訳）: TsCA:コンポジションゼロショット学習のためのコンディショナルトランスポートによるセマンティック一貫性アライメントについて
Authors: Miaoge Li, Jingcai Guo, Richard Yi Da Xu, Dongsheng Wang, Xiaofeng Cao, Song Guo,
Abstract要約: 本稿では、コンポジションゼロショット学習(CZSL)における条件伝達(CT)理論とそのホモロジーを視覚・セマンティック相互作用に再考する。本稿では,これらの問題によく適応する新しいTrisets Consistency Alignmentフレームワーク(TsCA)を提案する。我々は、CTプランをオープンワールド設定に拡張し、モデルが実現不可能なペアを効果的にフィルタリングできるようにする。
参考スコア（独自算出の注目度）: 25.177070774144205
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Compositional Zero-Shot Learning (CZSL) aims to recognize novel \textit{state-object} compositions by leveraging the shared knowledge of their primitive components. Despite considerable progress, effectively calibrating the bias between semantically similar multimodal representations, as well as generalizing pre-trained knowledge to novel compositional contexts, remains an enduring challenge. In this paper, our interest is to revisit the conditional transport (CT) theory and its homology to the visual-semantics interaction in CZSL and further, propose a novel Trisets Consistency Alignment framework (dubbed TsCA) that well-addresses these issues. Concretely, we utilize three distinct yet semantically homologous sets, i.e., patches, primitives, and compositions, to construct pairwise CT costs to minimize their semantic discrepancies. To further ensure the consistency transfer within these sets, we implement a cycle-consistency constraint that refines the learning by guaranteeing the feature consistency of the self-mapping during transport flow, regardless of modality. Moreover, we extend the CT plans to an open-world setting, which enables the model to effectively filter out unfeasible pairs, thereby speeding up the inference as well as increasing the accuracy. Extensive experiments are conducted to verify the effectiveness of the proposed method.
Abstract（参考訳）: 合成ゼロショット学習 (CZSL) は, 基本コンポーネントの共有知識を活用することで, 新規な \textit{state-object} 合成を認識することを目的としている。かなりの進歩にもかかわらず、意味的に類似したマルチモーダル表現間のバイアスを効果的に調整し、事前学習された知識を新しい構成文脈に一般化することは、持続的な課題である。本稿では,条件伝達(CT)理論とそのホモロジーをCZSLにおける視覚・セマンティック相互作用に再考すること,さらにこれらの問題によく適応する新しい三値整合性フレームワーク(TsCA)を提案する。具体的には、パッチ、プリミティブ、コンポジションの3つの異なる意味的相同性集合を用いて、その意味的相違を最小限に抑えるために、ペアワイズCTコストを構築する。これらの集合内の整合性伝達をさらに確実にするため、モダリティに関係なく、輸送フロー中の自己マッピングの特徴的整合性を保証することによって学習を洗練させるサイクル整合性制約を実装した。さらに,CTプランをオープンワールド設定に拡張することで,非実現不可能なペアを効果的にフィルタリングし,推論を高速化し,精度を向上する。提案手法の有効性を検証するため, 広範囲な実験を行った。

関連論文リスト

Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。意味論の欠如により、異種表現は誤った一致につながる可能性がある。モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文参考訳（メタデータ） (2025-07-28T11:46:35Z)
ATAS: Any-to-Any Self-Distillation for Enhanced Open-Vocabulary Dense Prediction [3.7365850182404845]
Any-to-Any Self-Distillation (ATAS)は、セマンティックコヒーレンスときめ細かいアライメントを同時に強化する新しいアプローチである。 ATASはオープン語彙オブジェクト検出とセマンティックセグメンテーションのベンチマークでかなりの性能向上を達成した。
論文参考訳（メタデータ） (2025-06-10T10:40:10Z)
Imputation-free and Alignment-free: Incomplete Multi-view Clustering Driven by Consensus Semantic Learning [65.75756724642932]
不完全なマルチビュークラスタリングでは、欠落したデータがビュー内のプロトタイプシフトとビュー間のセマンティック不整合を誘導する。コンセンサスセマンティクス学習(FreeCSL)のためのIMVCフレームワークを提案する。 FreeCSLは、最先端の競合他社と比較して、IMVCタスクの信頼性と堅牢な割り当てを実現している。
論文参考訳（メタデータ） (2025-05-16T12:37:10Z)
JTCSE: Joint Tensor-Modulus Constraints and Cross-Attention for Unsupervised Contrastive Learning of Sentence Embeddings [5.152575977825381]
我々は,新しい textbfJoint textbfTensor representation modulus constraint と textbfCross-attention unsupervised contrastive learning textbfSentence textbfEmbedding representation framework JTCSE を提案する。
論文参考訳（メタデータ） (2025-05-05T05:09:21Z)
TS-TCD: Triplet-Level Cross-Modal Distillation for Time-Series Forecasting Using Large Language Models [15.266543423942617]
本稿では,3段階のクロスモーダルな知識蒸留機構を包括的に導入する新しいフレームワークTS-TCDを提案する。分離されたアライメント技術に焦点を当てた以前の作業とは異なり、私たちのフレームワークは体系的に統合されます。ベンチマークタイムシリーズの実験では、TS-TCDは最先端の結果を達成し、精度と堅牢性の両方で従来の手法より優れていることが示されている。
論文参考訳（メタデータ） (2024-09-23T12:57:24Z)
Temporal Order Preserved Optimal Transport-based Cross-modal Knowledge Transfer Learning for ASR [36.250914527327005]
事前訓練された言語モデルから音響モデルに言語知識を移すことにより,音声認識の性能を大幅に向上させることが示されている。 ASRのための時間順序保存OT(TOT)に基づくクロスモーダルアライメント・アンド・ナレッジ・トランスファー(CAKT)を提案する。
論文参考訳（メタデータ） (2024-09-03T19:11:15Z)
Contrastive Learning and Cycle Consistency-based Transductive Transfer Learning for Target Annotation [11.883617702526193]
本稿では,FIDスコアが大幅に低いH-CUT(Hybrid contrastive learning base unpaired domain translation)ネットワークを提案する。注目とエントロピーの両方を取り入れて、ドメイン固有の領域を強調するとともに、高変動性合成陰性パッチを生成するノイズ混在モジュールや、すべての負性パッチを再重み付けするための変調ノイズコントラスト推定(MoNCE)の損失を発生させる。提案されたC3TTLフレームワークは、民間車両や軍用車両のアノテートだけでなく、船舶の標的にも有効である。
論文参考訳（メタデータ） (2024-01-22T20:08:57Z)
Synergistic Anchored Contrastive Pre-training for Few-Shot Relation Extraction [4.7220779071424985]
Few-shot Relation extract (FSRE) は、ラベル付きコーパスのスパースセットから事実を抽出することを目的としている。近年の研究では、事前学習言語モデルを用いたFSREの有望な結果が示されている。本稿では,新しい相乗的アンカー付きコントラスト事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-19T10:16:24Z)
SCD-Net: Spatiotemporal Clues Disentanglement Network for Self-supervised Skeleton-based Action Recognition [39.99711066167837]
本稿では、SCD-Net(Stemporal Clues Disentanglement Network)という、対照的な学習フレームワークを紹介する。具体的には,これらのシーケンスを特徴抽出器と統合し,空間領域と時間領域からそれぞれ明確な手がかりを導出する。我々は,NTU-+D (60&120) PKU-MMDI (&I) データセットの評価を行い,行動認識,行動検索,伝達学習などの下流タスクを網羅した。
論文参考訳（メタデータ） (2023-09-11T21:32:13Z)
Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文参考訳（メタデータ） (2023-03-10T14:38:49Z)
ProCC: Progressive Cross-primitive Compatibility for Open-World Compositional Zero-Shot Learning [29.591615811894265]
Open-World Composal Zero-shot Learning (OW-CZSL) は、コンポジション空間に先立って、画像中の状態とオブジェクトプリミティブの新規なコンポジションを認識することを目的としている。本稿では,OW-CZSLタスクの学習過程を模倣する,Progressive Cross-primitive Compatibility (ProCC) と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2022-11-19T10:09:46Z)
Siamese Contrastive Embedding Network for Compositional Zero-Shot Learning [76.13542095170911]
合成ゼロショット学習(CZSL)は、学習中に目に見える状態と対象から形成される見えない構成を認識することを目的としている。本稿では,未知の合成認識のための新しいSiamese Contrastive Embedding Network(SCEN)を提案する。提案手法は,3つの挑戦的ベンチマークデータセットに対して,最先端のアプローチを著しく上回っている。
論文参考訳（メタデータ） (2022-06-29T09:02:35Z)
Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。 SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文参考訳（メタデータ） (2021-12-12T06:11:16Z)
Cross-modal Consensus Network for Weakly Supervised Temporal Action Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文参考訳（メタデータ） (2021-07-27T04:21:01Z)
Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文参考訳（メタデータ） (2021-06-04T14:39:03Z)
Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。 ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文参考訳（メタデータ） (2021-05-28T14:25:49Z)
3D Human Action Representation Learning via Cross-View Consistency Pursuit [52.19199260960558]
教師なし3次元骨格に基づく行動表現(CrosSCLR)のためのクロスビューコントラスト学習フレームワークを提案する。 CrosSCLRは、シングルビューのコントラスト学習(SkeletonCLR)とクロスビューの一貫した知識マイニング(CVC-KM)モジュールの両方で構成されています。
論文参考訳（メタデータ） (2021-04-29T16:29:41Z)
Bottom-Up Temporal Action Localization with Mutual Regularization [107.39785866001868]
TALの最先端の解決策は、3つの行動指示相のフレームレベルの確率を評価することである。学習手順を相互に規則化するための2つの規則化用語を導入する。実験は2つの人気のTALデータセット、THUMOS14とActivityNet1.3で行われている。
論文参考訳（メタデータ） (2020-02-18T03:59:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。