論文の概要: Face-Guided Sentiment Boundary Enhancement for Weakly-Supervised Temporal Sentiment Localization
- arxiv url: http://arxiv.org/abs/2603.14750v1
- Date: Mon, 16 Mar 2026 02:36:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.006972
- Title: Face-Guided Sentiment Boundary Enhancement for Weakly-Supervised Temporal Sentiment Localization
- Title(参考訳): 弱めに監督された時間知覚定位のための顔ガイド型知覚境界強調法
- Authors: Cailing Han, Zhangbin Li, Jinxing Zhou, Wei Qian, Jingjing Hu, Yanghao Zhou, Zhangling Duan, Dan Guo,
- Abstract要約: P-WTSL (Point-level weak-supervised temporal sentiment Localization) は、タイムスタンプの感情アノテーションを用いて、未編集のマルチモーダルビデオにおける感情関連セグメントを検出することを目的としている。
顔のきめ細かい特徴を利用して感情の局所化を誘導する統合フレームワークであるFace-guided Sentiment Boundary Enhancement Network (textbfFSENet)を提案する。
- 参考スコア(独自算出の注目度): 23.938015430802704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Point-level weakly-supervised temporal sentiment localization (P-WTSL) aims to detect sentiment-relevant segments in untrimmed multimodal videos using timestamp sentiment annotations, which greatly reduces the costly frame-level labeling. To further tackle the challenges of imprecise sentiment boundaries in P-WTSL, we propose the Face-guided Sentiment Boundary Enhancement Network (\textbf{FSENet}), a unified framework that leverages fine-grained facial features to guide sentiment localization. Specifically, our approach \textit{first} introduces the Face-guided Sentiment Discovery (FSD) module, which integrates facial features into multimodal interaction via dual-branch modeling for effective sentiment stimuli clues; We \textit{then} propose the Point-aware Sentiment Semantics Contrast (PSSC) strategy to discriminate sentiment semantics of candidate points (frame-level) near annotation points via contrastive learning, thereby enhancing the model's ability to recognize sentiment boundaries. At \textit{last}, we design the Boundary-aware Sentiment Pseudo-label Generation (BSPG) approach to convert sparse point annotations into temporally smooth supervisory pseudo-labels. Extensive experiments and visualizations on the benchmark demonstrate the effectiveness of our framework, achieving state-of-the-art performance under full supervision, video-level, and point-level weak supervision, thereby showcasing the strong generalization ability of our FSENet across different annotation settings.
- Abstract(参考訳): P-WTSLは、タイムスタンプの感情アノテーションを用いて、非トリミングマルチモーダルビデオの感情関連セグメントを検出することを目的としており、フレームレベルのラベリングを大幅に削減する。
P-WTSLにおける不正確な感情境界の課題にさらに取り組むために、微粒な顔特徴を利用して感情ローカライゼーションを誘導する統合フレームワークであるFace-guided Sentiment Boundary Enhancement Network (\textbf{FSENet})を提案する。
具体的には,顔の特徴をマルチモーダル・インタラクションに統合するFSD(Face-guided Sentiment Discovery)モジュールを導入し,感情刺激の効果的な手がかりとして,デュアルブランチ・モデリングによるマルチモーダル・インタラクションを実現する。
textit{last} において,スパースポイントアノテーションを時間的にスムーズな擬似ラベルに変換する境界認識型センティメント擬似ラベル生成 (BSPG) 手法を設計する。
ベンチマークによる大規模な実験と可視化は,本フレームワークの有効性を実証し,全監督下,ビデオレベル,ポイントレベルの弱監督下での最先端性能を実現し,異なるアノテーション設定でFSENetの強力な一般化能力を示す。
関連論文リスト
- Boosting Point-supervised Temporal Action Localization via Text Refinement and Alignment [66.80402022104074]
本稿では,視覚記述からテキスト特徴を効果的に活用し,意味的に豊かな視覚特徴を補完するテキスト認識・アライメント(TRA)フレームワークを提案する。
これは、PTR(Point-based Text Refinement Module)とPMA(Point-based Multimodal Alignment Module)の2つの新しいモジュールを設計することで実現される。
論文 参考訳(メタデータ) (2026-02-01T14:35:46Z) - Semi-Supervised Hyperspectral Image Classification with Edge-Aware Superpixel Label Propagation and Adaptive Pseudo-Labeling [5.022329161015679]
本研究では,空間的事前情報と動的学習機構を組み合わせた半教師付きハイパースペクトル分類フレームワークを提案する。
擬似ラベル変動を緩和し,時間的一貫性と耐雑音性を向上する動的履歴融合予測法(DHP)を提案する。
Dynamic Reliability-Enhanced Pseudo-Label Framework (DREPL)は、時間的およびサンプルドメイン間の擬似ラベル安定性を強化する。
論文 参考訳(メタデータ) (2026-01-26T00:31:08Z) - Text-guided Weakly Supervised Framework for Dynamic Facial Expression Recognition [49.41688891301643]
動的表情認識は、映像列間の顔の動きの時間的変化をモデル化することにより、感情状態の同定を目的としている。
DFERの重要な課題は、多数のフレームからなるビデオが単一の感情ラベルに割り当てられる、多対一のラベリングの問題である。
本稿では,テキスト誘導型弱教師付きフレームワークであるTG-DFERを提案する。
論文 参考訳(メタデータ) (2025-11-14T04:49:58Z) - Weakly-Supervised Image Forgery Localization via Vision-Language Collaborative Reasoning Framework [16.961220047066792]
ViLaCoは視覚言語の共同推論フレームワークで、事前訓練された視覚言語モデルから抽出した補助的セマンティックインスペクションを導入する。
ViLaCoは既存のWSIFL法を大幅に上回り、検出精度とローカライゼーション精度の両方で最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-08-02T12:14:29Z) - BoundMatch: Boundary detection applied to semi-supervised segmentation [12.8995997687175]
半教師付きセマンティックセマンティックセグメンテーション(SS-SS)は,多彩なラベル付き画像を活用することで,高密度画素ラベリングの重いアノテーション負担を軽減することを目的としている。
本稿では,意味境界検出を教師と学生の整合性正規化パイプラインに明示的に統合する,新しいマルチタスクSS-SSフレームワークであるBoundMatchを提案する。
境界一貫性規則化マルチタスク学習(Bundary Consistency Regularized Multi-Task Learning)は,セグメンテーションマスクと詳細なセグメンテーション境界において,教師と生徒のモデル間の予測合意を強制する。
論文 参考訳(メタデータ) (2025-03-30T17:02:26Z) - Collaborative Temporal Consistency Learning for Point-supervised Natural Language Video Localization [129.43937834515688]
我々は,ビデオ言語アライメントを強化するために,新しいコラボラティブ・テンポラル・コンポジション・ラーニング(COTEL)フレームワークを提案する。
具体的には、まずフレームとセグメントレベルの時間一貫性学習(TCL)モジュールを設計し、フレームサリエンシと文-モーメントペア間のセマンティックアライメントをモデル化する。
論文 参考訳(メタデータ) (2025-03-22T05:04:12Z) - Pointly-Supervised Panoptic Segmentation [106.68888377104886]
弱教師付き単眼セグメンテーションにポイントレベルのアノテーションを適用するための新しい手法を提案する。
完全に教師された方法で使用される高密度のピクセルレベルラベルの代わりに、ポイントレベルラベルは、監督対象ごとに単一のポイントしか提供しない。
我々は、ポイントレベルのラベルから同時に汎視的擬似マスクを生成し、それらから学習することで、エンドツーエンドのフレームワークにおける問題を定式化する。
論文 参考訳(メタデータ) (2022-10-25T12:03:51Z) - Weakly Supervised Temporal Adjacent Network for Language Grounding [96.09453060585497]
本稿では,時間的言語接地のための新しい教師付き時間的隣接ネットワーク(WSTAN)を提案する。
WSTANは、複数のインスタンス学習(MIL)パラダイムにおいて、時間的隣接ネットワークを活用することで、モーダル間のセマンティックアライメントを学習する。
MILブランチと補完ブランチの両方で、自己監督による意味的識別を強化するために、追加の自己識別損失が考案された。
論文 参考訳(メタデータ) (2021-06-30T15:42:08Z) - Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional
Architectures in a Contextual Approach for Video-Based Visual Emotion
Recognition in the Wild [31.40575057347465]
私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。
身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。
我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
論文 参考訳(メタデータ) (2021-05-16T17:31:59Z) - Panoster: End-to-end Panoptic Segmentation of LiDAR Point Clouds [81.12016263972298]
我々は,LiDAR点雲のための提案不要なパノプティックセグメンテーション手法であるパノスターを提案する。
従来のアプローチとは異なり、Panosterでは、インスタンスを識別するための学習ベースのクラスタリングソリューションを組み込んだ、シンプルなフレームワークを提案している。
推論時に、これはクラスに依存しないセグメンテーションとして機能し、パノスターは高速で、精度の点で先行メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-10-28T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。