論文の概要: Weak to Strong: VLM-Based Pseudo-Labeling as a Weakly Supervised Training Strategy in Multimodal Video-based Hidden Emotion Understanding Tasks
- arxiv url: http://arxiv.org/abs/2602.08057v1
- Date: Sun, 08 Feb 2026 17:02:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.956685
- Title: Weak to Strong: VLM-Based Pseudo-Labeling as a Weakly Supervised Training Strategy in Multimodal Video-based Hidden Emotion Understanding Tasks
- Title(参考訳): 弱みと強み:マルチモーダルビデオベース隠れ感情理解タスクにおける弱々しい指導戦略としてのVLMに基づく擬似ラベル
- Authors: Yufei Wang, Haixu Liu, Tianxiang Xu, Chuancheng Shi, Hongsheng Xing,
- Abstract要約: 本稿では,映像中の「概念的感情」の自動認識に取り組むための弱視的枠組みを提案する。
実験により、厳密なクラス不均衡にもかかわらず、提案手法は以前の作業で0.6以下から0.69以上に上昇することが示された。
- 参考スコア(独自算出の注目度): 4.888851550406879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To tackle the automatic recognition of "concealed emotions" in videos, this paper proposes a multimodal weak-supervision framework and achieves state-of-the-art results on the iMiGUE tennis-interview dataset. First, YOLO 11x detects and crops human portraits frame-by-frame, and DINOv2-Base extracts visual features from the cropped regions. Next, by integrating Chain-of-Thought and Reflection prompting (CoT + Reflection), Gemini 2.5 Pro automatically generates pseudo-labels and reasoning texts that serve as weak supervision for downstream models. Subsequently, OpenPose produces 137-dimensional key-point sequences, augmented with inter-frame offset features; the usual graph neural network backbone is simplified to an MLP to efficiently model the spatiotemporal relationships of the three key-point streams. An ultra-long-sequence Transformer independently encodes both the image and key-point sequences, and their representations are concatenated with BERT-encoded interview transcripts. Each modality is first pre-trained in isolation, then fine-tuned jointly, with pseudo-labeled samples merged into the training set for further gains. Experiments demonstrate that, despite severe class imbalance, the proposed approach lifts accuracy from under 0.6 in prior work to over 0.69, establishing a new public benchmark. The study also validates that an "MLP-ified" key-point backbone can match - or even surpass - GCN-based counterparts in this task.
- Abstract(参考訳): そこで本研究では,ビデオにおける「合意された感情」の自動認識に対処するため,iMiGUEテニス・インタービューデータセット上で,マルチモーダル・弱スーパービジョン・フレームワークを提案し,最先端の結果を達成した。
まず、YOLO 11xは人間の肖像画をフレーム単位で検出して収穫し、DINOv2-Baseは収穫された領域から視覚的特徴を抽出する。
次に、Chain-of-ThoughtとReflectionのプロンプト(CoT + Reflection)を統合することで、Gemini 2.5 Proは自動的に擬似ラベルを生成し、下流モデルの弱い監視に役立つ推論テキストを生成する。
その後、OpenPoseは137次元のキーポイントシーケンスを生成し、フレーム間オフセットの特徴を付加し、通常のグラフニューラルネットワークのバックボーンをMPPに単純化し、3つのキーポイントストリームの時空間関係を効率的にモデル化する。
超長周期変換器は、画像とキーポイントシーケンスの両方を独立に符号化し、その表現はBERT符号化インタビュートランスクリプトと連結される。
それぞれのモダリティは最初は単独で事前訓練され、その後は微調整され、擬似ラベルのサンプルはさらなる利得を得るためにトレーニングセットにマージされる。
実験により、厳密なクラス不均衡にもかかわらず、提案手法は前の作業で0.6未満の精度を0.69以上に引き上げ、新しい公開ベンチマークが確立された。
のキーポイントバックボーンが、このタスクにおいてGCNベースのバックボーンと一致するか、あるいは超える可能性があることを検証している。
関連論文リスト
- Detect Anything via Next Point Prediction [51.55967987350882]
Rex-Omniは最先端の物体認識性能を実現する3BスケールのMLLMである。
COCOやLVISのようなベンチマークでは、Rex-Omniは回帰ベースのモデルに匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2025-10-14T17:59:54Z) - UniVid: The Open-Source Unified Video Model [41.15980565061684]
MLLMと拡散デコーダを軽量アダプタで結合する統一アーキテクチャUniVidを提案する。
標準ベンチマークの実験では、最先端のパフォーマンスが示されている。
論文 参考訳(メタデータ) (2025-09-29T02:31:36Z) - GAME: Learning Multimodal Interactions via Graph Structures for Personality Trait Estimation [13.071227081328288]
ショートビデオからの明瞭なパーソナリティ分析は、視覚的、聴覚的、およびテキスト的手がかりの複雑な相互作用のため、重要なチャルレンジを呈する。
本稿では,グラフ拡張型マルチモーダル進化法であるGAMEを提案する。
ビジュアルストリームのために、顔グラフを構築し、グラフ畳み込みネットワーク(GCN)と畳み込みニューラルネットワーク(CNN)を組み合わせたデュアルブランチGeo Two-Stream Networkを導入する。
時間的ダイナミクスを捉えるために、フレームレベルの特徴はBiGによって処理される
論文 参考訳(メタデータ) (2025-05-05T13:48:09Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Holistically-Attracted Wireframe Parsing: From Supervised to
Self-Supervised Learning [112.54086514317021]
本稿では,線分とジャンクションを用いた幾何解析のためのホロスティック適応型ワイヤフレーム解析法を提案する。
提案したHAWPは、エンド・ツー・フォームの4Dラベルによって強化された3つのコンポーネントで構成されている。
論文 参考訳(メタデータ) (2022-10-24T06:39:32Z) - MIST: Multiple Instance Self-Training Framework for Video Anomaly
Detection [76.80153360498797]
タスク固有の識別表現を効率的に洗練するためのマルチインスタンス自己学習フレームワーク(MIST)を開発した。
mistは1)スパース連続サンプリング戦略を適用し,より信頼性の高いクリップレベル擬似ラベルを生成するマルチインスタンス擬似ラベル生成器,2)自己誘導型注意強調特徴エンコーダで構成される。
本手法は,上海技術におけるフレームレベルのAUC 94.83%の取得において,既存の教師付きおよび弱教師付き手法と同等あるいはそれ以上に機能する。
論文 参考訳(メタデータ) (2021-04-04T15:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。