論文の概要: MotivNet: Evolving Meta-Sapiens into an Emotionally Intelligent Foundation Model
- arxiv url: http://arxiv.org/abs/2512.24231v1
- Date: Tue, 30 Dec 2025 13:44:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.390429
- Title: MotivNet: Evolving Meta-Sapiens into an Emotionally Intelligent Foundation Model
- Title(参考訳): MotivNet: メタサピエンスを感情的にインテリジェントなファンデーションモデルに進化させる
- Authors: Rahul Medicharla, Alper Yilmaz,
- Abstract要約: 実世界のロバストなアプリケーションのための一般化可能な顔感情認識モデルであるMotivNetを紹介した。
我々のモデルは,メタサピエンスをバックボーンとして使用することにより,クロスドメイントレーニングなしでデータセット間の競合性能を実現する。
- 参考スコア(独自算出の注目度): 4.941630596191806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce MotivNet, a generalizable facial emotion recognition model for robust real-world application. Current state-of-the-art FER models tend to have weak generalization when tested on diverse data, leading to deteriorated performance in the real world and hindering FER as a research domain. Though researchers have proposed complex architectures to address this generalization issue, they require training cross-domain to obtain generalizable results, which is inherently contradictory for real-world application. Our model, MotivNet, achieves competitive performance across datasets without cross-domain training by using Meta-Sapiens as a backbone. Sapiens is a human vision foundational model with state-of-the-art generalization in the real world through large-scale pretraining of a Masked Autoencoder. We propose MotivNet as an additional downstream task for Sapiens and define three criteria to evaluate MotivNet's viability as a Sapiens task: benchmark performance, model similarity, and data similarity. Throughout this paper, we describe the components of MotivNet, our training approach, and our results showing MotivNet is generalizable across domains. We demonstrate that MotivNet can be benchmarked against existing SOTA models and meets the listed criteria, validating MotivNet as a Sapiens downstream task, and making FER more incentivizing for in-the-wild application. The code is available at https://github.com/OSUPCVLab/EmotionFromFaceImages.
- Abstract(参考訳): 本稿では、実世界のロバストなアプリケーションのための一般化可能な顔感情認識モデルであるMotivNetを紹介する。
現在最先端のFERモデルでは、多様なデータでテストすると、弱い一般化が見られ、現実世界のパフォーマンスが低下し、FERが研究領域として妨げられる傾向にある。
研究者はこの一般化問題に対処するために複雑なアーキテクチャを提案しているが、現実の応用には本質的に矛盾する、一般化可能な結果を得るためにはクロスドメインのトレーニングが必要である。
私たちのモデルであるMotivNetは、Meta-Sapiensをバックボーンとして使用することで、クロスドメイントレーニングなしでデータセット間での競合的なパフォーマンスを実現しています。
Sapiensは人間の視覚基盤モデルであり、Masked Autoencoderの大規模な事前訓練を通じて、現実世界で最先端の一般化を実現している。
サピエンスの下流タスクとしてMotivNetを提案し、サピエンスタスクとしてMotivNetの生存性を評価するための3つの基準を定義する。
本稿では、MotivNetのコンポーネント、トレーニングアプローチ、およびMotivNetがドメイン間で一般化可能であることを示す結果について述べる。
我々は、既存のSOTAモデルに対してMotivNetをベンチマークし、リストされた基準を満たし、Sapiens下流タスクとしてMotivNetを検証し、FERをよりインセンティブにすることができることを示した。
コードはhttps://github.com/OSUPCVLab/EmotionFromFaceImagesで公開されている。
関連論文リスト
- Affordance Representation and Recognition for Autonomous Agents [64.39018305018904]
本稿では,構造化データを用いた世界モデリングのためのパターン言語を提案する。
DOMトランスダクションパターンは、Webページの複雑さの課題に対処する。
Hypermedia Affordances Recognition Patternは、エージェントがその世界モデルを動的に強化することを可能にする。
論文 参考訳(メタデータ) (2025-10-28T14:27:28Z) - Dynamic Adaptive Parsing of Temporal and Cross-Variable Patterns for Network State Classification [9.007194066331452]
DAPNetはMixture-of-Expertsアーキテクチャに基づくフレームワークである。
DAPNetは、周期解析、動的相互変数相関モデリング、ハイブリッド時間特徴抽出の3つの専門ネットワークを統合している。
アーキテクチャ設計の一般化性は、10のパブリックなUEAベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2025-09-15T05:32:32Z) - Stanceformer: Target-Aware Transformer for Stance Detection [59.69858080492586]
スタンス検出は、テキストで表現されたスタンスを特定の主題やターゲットに向けて識別する。
以前の作業は、ターゲットを効果的に優先順位付けする能力に欠ける既存のトランスフォーマーモデルに依存していた。
本稿では,学習と推論の両方において,目標に対する注意を高めるターゲット対応トランスフォーマーモデルであるStanceformerを紹介する。
論文 参考訳(メタデータ) (2024-10-09T17:24:28Z) - Meta-Models: An Architecture for Decoding LLM Behaviors Through Interpreted Embeddings and Natural Language [0.0]
我々は「入力モデル」からアクティベーションを取り、入力モデルの振る舞いに関する自然言語質問に答える「メタモデル」を用いる。
選択したタスクタイプをトレーニングし,そのアウト・オブ・ディストリビューション性能を評価することによって,メタモデルの一般化能力を評価する。
論文 参考訳(メタデータ) (2024-10-03T13:25:15Z) - Open World Object Detection in the Era of Foundation Models [53.683963161370585]
5つの実世界のアプリケーション駆動データセットを含む新しいベンチマークを導入する。
本稿では,オープンワールドのための新しいオブジェクト検出モデル(FOMO)を提案する。
論文 参考訳(メタデータ) (2023-12-10T03:56:06Z) - When Neural Networks Fail to Generalize? A Model Sensitivity Perspective [82.36758565781153]
ドメイン一般化 (Domain Generalization, DG) は、異なる分布の下で見えないドメインでうまく機能するようにモデルを訓練することを目的としている。
本稿では,より現実的で,より困難なシナリオである単一領域一般化(Single-DG)について考察する。
我々は「モデル感度」と命名する一般化と強く相関するモデルの性質を経験的に確認する。
本稿では、高感度の周波数をターゲットとした拡張画像を生成するために、スペクトル逆データ拡張(SADA)の新たな戦略を提案する。
論文 参考訳(メタデータ) (2022-12-01T20:15:15Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - A Robust Framework for Deep Learning Approaches to Facial Emotion
Recognition and Evaluation [0.17398560678845074]
本稿では、FER用に開発したモデルを比較し、相互に比較するフレームワークを提案する。
AffectNetデータセットで、軽量な畳み込みニューラルネットワークをトレーニングする。
概念実証として提案したフレームワークを用いてWebアプリケーションを開発,デプロイする。
論文 参考訳(メタデータ) (2022-01-30T02:10:01Z) - Benchmarking the Robustness of Instance Segmentation Models [7.1699725781322465]
本稿では,実世界の画像の破損や領域外画像の収集に関して,インスタンス分割モデルの包括的評価を行う。
グループ正規化は、画像の内容が同じだが、上に汚職が加えられている汚職間のネットワークの堅牢性を高める。
また、単段検出器はトレーニングサイズよりも画像解像度が大きくなるほど一般化しないことがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:50:07Z) - Learning Meta Face Recognition in Unseen Domains [74.69681594452125]
メタ顔認識(MFR)というメタラーニングを用いた新しい顔認識手法を提案する。
MFRは、メタ最適化目標を用いてソース/ターゲットドメインシフトを合成する。
一般化顔認識評価のためのベンチマークを2つ提案する。
論文 参考訳(メタデータ) (2020-03-17T14:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。