Fugu-MT 論文翻訳(概要): LEAF: Unveiling Two Sides of the Same Coin in Semi-supervised Facial Expression Recognition

論文の概要: LEAF: Unveiling Two Sides of the Same Coin in Semi-supervised Facial Expression Recognition

arxiv url: http://arxiv.org/abs/2404.15041v2
Date: Fri, 26 Apr 2024 13:38:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-29 12:15:51.767636
Title: LEAF: Unveiling Two Sides of the Same Coin in Semi-supervised Facial Expression Recognition
Title（参考訳）: LEAF: 半教師付き顔表情認識における同一符号の2つの側面の展開
Authors: Fan Zhang, Zhi-Qi Cheng, Jian Zhao, Xiaojiang Peng, Xuelong Li,
Abstract要約: 半教師付き学習は、表情認識におけるラベル不足の課題に取り組むための有望なアプローチとして現れてきた。本稿では,表現関連表現と擬似ラベルを協調する統合フレームワークであるhierarchicaL dEcoupling And Fusingを提案する。 LEAFは最先端の半教師付きFER法より優れており,ラベル付きデータとラベルなしデータの両方を効果的に活用できることを示す。
参考スコア（独自算出の注目度）: 56.22672276092373
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Semi-supervised learning has emerged as a promising approach to tackle the challenge of label scarcity in facial expression recognition (FER) task. However, current state-of-the-art methods primarily focus on one side of the coin, i.e., generating high-quality pseudo-labels, while overlooking the other side: enhancing expression-relevant representations. In this paper, we unveil both sides of the coin by proposing a unified framework termed hierarchicaL dEcoupling And Fusing (LEAF) to coordinate expression-relevant representations and pseudo-labels for semi-supervised FER. LEAF introduces a hierarchical expression-aware aggregation strategy that operates at three levels: semantic, instance, and category. (1) At the semantic and instance levels, LEAF decouples representations into expression-agnostic and expression-relevant components, and adaptively fuses them using learnable gating weights. (2) At the category level, LEAF assigns ambiguous pseudo-labels by decoupling predictions into positive and negative parts, and employs a consistency loss to ensure agreement between two augmented views of the same image. Extensive experiments on benchmark datasets demonstrate that by unveiling and harmonizing both sides of the coin, LEAF outperforms state-of-the-art semi-supervised FER methods, effectively leveraging both labeled and unlabeled data. Moreover, the proposed expression-aware aggregation strategy can be seamlessly integrated into existing semi-supervised frameworks, leading to significant performance gains. Our code is available at https://anonymous.4open.science/r/LEAF-BC57/.
Abstract（参考訳）: 半教師付き学習は、表情認識(FER)タスクにおけるラベル不足への挑戦として、有望なアプローチとして現れてきた。しかし、現在の最先端の手法は、主にコインの片面、すなわち高品質な擬似ラベルを生成することに焦点を当てている。本稿では,表現関連表現と擬似ラベルを半教師付きFERにコーディネートするために,階層型dEcoupling And Fusing (LEAF) という統一的な枠組みを提案する。 LEAFは階層的な表現認識集約戦略を導入し、セマンティック、インスタンス、カテゴリの3つのレベルで動作する。 1)意味的および事例レベルでは,LEAFは表現を表現に依存しない表現関連成分と表現関連成分に分解し,学習可能なゲーティングウェイトを用いてそれらを適応的に融合させる。 2)カテゴリレベルでは,予測を正と負の部分に分離することで曖昧な擬似ラベルを割り当て,同じ画像の2つの拡張ビューの一致を確保するために一貫性損失を用いる。ベンチマークデータセットに関する大規模な実験により、LEAFはコインの両側を公表し調和させることで、最先端の半教師付きFERメソッドより優れ、ラベル付きデータとラベルなしデータの両方を効果的に活用できることが示されている。さらに、提案した式対応アグリゲーション戦略を既存の半教師付きフレームワークにシームレスに統合することで、大幅なパフォーマンス向上を実現している。私たちのコードはhttps://anonymous.4open.science/r/LEAF-BC57/で利用可能です。

関連論文リスト

Focal Guidance: Unlocking Controllability from Semantic-Weak Layers in Video Diffusion Models [41.59364061354628]
Image-to-Video(I2V)生成は、参照画像とテキストプロンプトからビデオを合成することを目的としている。既存のI2Vモデルは視覚的一貫性を優先する。この2つのガイダンスを効果的に組み合わせて、テキストプロンプトへの強い固執を確実にする方法は、まだ検討されていない。
論文参考訳（メタデータ） (2026-01-12T07:48:26Z)
LIHE: Linguistic Instance-Split Hyperbolic-Euclidean Framework for Generalized Weakly-Supervised Referring Expression Comprehension [42.52759428579815]
既存のWeakly-Supervised Referring Expression (WREC) メソッドは、基本的に1対1のマッピング仮定によって制限される。 Weakly-Supervised Generalized Referring Expression Task (WGREC)を導入する。本稿では,2段階で動作するLingguistic Instance-Split-Euclidean (LIHE) という新しいWGRECフレームワークを提案する。
論文参考訳（メタデータ） (2025-11-15T04:06:57Z)
D$^2$HScore: Reasoning-Aware Hallucination Detection via Semantic Breadth and Depth Analysis in LLMs [15.665202830841046]
この研究は、モデルアーキテクチャと生成ダイナミクスの観点から幻覚検出を再考する。 textbfD$2$HScore (Dispersion and Drift-based Hallucination Score) を提案する。 5つのオープンソースのLanguage Modelと5つの広く使用されているベンチマークの実験は、D$2$HScoreが既存のトレーニング不要のベースラインを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2025-09-15T04:28:38Z)
Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-27T13:58:12Z)
Boundary-Driven Table-Filling with Cross-Granularity Contrastive Learning for Aspect Sentiment Triplet Extraction [8.011606196420757]
Aspect Sentiment Triplet extract taskは、きめ細かい感情分析において最も顕著なサブタスクの1つである。既存のほとんどのアプローチでは、エンドツーエンドで2次元テーブルフィリングプロセスとしてフレームトリプレット抽出を行っている。文レベル表現と単語レベル表現のセマンティック一貫性を高めるために,BTF-CCLを用いた境界駆動型テーブル充填を提案する。
論文参考訳（メタデータ） (2025-02-04T02:23:45Z)
A Unified Label-Aware Contrastive Learning Framework for Few-Shot Named Entity Recognition [6.468625143772815]
ラベル認識型トークンレベルのコントラスト学習フレームワークを提案する。提案手法は,ラベルのセマンティクスを接尾辞のプロンプトとして活用することでコンテキストを豊かにする。コンテキストネイティブとコンテキストラベルの対比学習目標を同時に最適化する。
論文参考訳（メタデータ） (2024-04-26T06:19:21Z)
Synergistic Anchored Contrastive Pre-training for Few-Shot Relation Extraction [4.7220779071424985]
Few-shot Relation extract (FSRE) は、ラベル付きコーパスのスパースセットから事実を抽出することを目的としている。近年の研究では、事前学習言語モデルを用いたFSREの有望な結果が示されている。本稿では,新しい相乗的アンカー付きコントラスト事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-19T10:16:24Z)
Space Engage: Collaborative Space Supervision for Contrastive-based Semi-Supervised Semantic Segmentation [11.136170940699163]
Semi-Supervised Semantic (S4) は、ラベル付き画像に制限のあるセグメンテーションモデルをトレーニングすることを目的としている。本稿では,潜在空間(表現空間)において,その表現をプロトタイプに完全に教師付きで集約する画素単位のコントラスト学習手法を提案する。 2つの公開ベンチマークの結果は、最先端の手法と比較して、提案手法の競合性能を実証している。
論文参考訳（メタデータ） (2023-07-19T05:39:15Z)
BERM: Training the Balanced and Extractable Representation for Matching to Improve Generalization Ability of Dense Retrieval [54.66399120084227]
本稿では,BERMと呼ばれるマッチング信号の取得により,高密度検索の一般化を改善する手法を提案する。センス検索は、ドメイン内のラベル付きデータセットでトレーニングされた場合、第1段階の検索プロセスにおいて有望であることが示されている。
論文参考訳（メタデータ） (2023-05-18T15:43:09Z)
Associating Spatially-Consistent Grouping with Text-supervised Semantic Segmentation [117.36746226803993]
テキスト教師付きセマンティックセグメンテーションを用いた自己教師付き空間一貫性グループ化を提案する。部分的なグループ化結果を考えると、さらに画像レベルから領域レベルへのテキスト教師付きモデルを適用する。 59.2% mIoU と 32.4% mIoU を Pascal VOC および Pascal Context ベンチマークで達成した。
論文参考訳（メタデータ） (2023-04-03T16:24:39Z)
BEST: BERT Pre-Training for Sign Language Recognition with Coupling Tokenization [135.73436686653315]
我々は、BERTの事前学習の成功を活用し、手話認識(SLR)モデルを肥大化させるために、ドメイン固有の統計モデルを構築している。手と体が手話表現の優位性を考えると、それらを三重奏単位として整理し、トランスフォーマーのバックボーンに供給する。劣化した入力シーケンスからマスク三重項ユニットを再構成して事前学習を行う。意味的ジェスチャー/身体状態を表すポーズ三重奏ユニットから離散擬似ラベルを適応的に抽出する。
論文参考訳（メタデータ） (2023-02-10T06:23:44Z)
1st Place Solution for PSG competition with ECCV'22 SenseHuman Workshop [1.5362025549031049]
Panoptic Scene Graph (PSG) の生成は、厳密なバウンディングボックスの代わりに、パノプティックセグメンテーションに基づいてシーングラフ表現を生成することを目的としている。本稿では,Global Relation Networkの2段階パラダイムであるGRNetを提案する。我々はOpenPSGデータセットの総合的な実験を行い、リードボード上で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-02-06T09:47:46Z)
Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。 IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。 IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文参考訳（メタデータ） (2021-03-02T08:20:08Z)
MatchGAN: A Self-Supervised Semi-Supervised Conditional Generative Adversarial Network [51.84251358009803]
本稿では,条件付き生成逆数ネットワーク(GAN)に対する,半教師付き環境下での自己教師型学習手法を提案する。利用可能な数少ないラベル付きサンプルのラベル空間から無作為なラベルをサンプリングして拡張を行う。本手法は,ベースラインのトレーニングに使用したラベル付きサンプルの20%に過ぎません。
論文参考訳（メタデータ） (2020-06-11T17:14:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。