論文の概要: Demographic User Modeling for Social Robotics with Multimodal Pre-trained Models
- arxiv url: http://arxiv.org/abs/2502.10642v1
- Date: Sat, 15 Feb 2025 02:38:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:18.749920
- Title: Demographic User Modeling for Social Robotics with Multimodal Pre-trained Models
- Title(参考訳): マルチモーダル事前学習モデルを用いたソーシャルロボティクスのデモグラフィックユーザモデリング
- Authors: Hamed Rahimi, Mouad Abrini, Mahdi Khoramshahi, Mohamed Chetouani,
- Abstract要約: ユーザの顔画像から人口統計特性を表現するために特別にキュレートされた2つのデータセットを導入する。
これらのデータセット上で、顕著なコントラスト付きマルチモーダル事前学習モデルCLIPの性能を評価する。
これを解決するために,一般化を改善し,微妙な人口統計特性をよりよく捉えるために,マスク付き画像モデリング戦略を採用することを提案する。
- 参考スコア(独自算出の注目度): 4.2185937778110825
- License:
- Abstract: This paper investigates the performance of multimodal pre-trained models in user profiling tasks based on visual-linguistic demographic data. These models are critical for adapting to the needs and preferences of human users in social robotics, thereby providing personalized responses and enhancing interaction quality. First, we introduce two datasets specifically curated to represent demographic characteristics derived from user facial images. Next, we evaluate the performance of a prominent contrastive multimodal pre-trained model, CLIP, on these datasets, both in its out-of-the-box state and after fine-tuning. Initial results indicate that CLIP performs suboptimal in matching images to demographic descriptions without fine-tuning. Although fine-tuning significantly enhances its predictive capacity, the model continues to exhibit limitations in effectively generalizing subtle demographic nuances. To address this, we propose adopting a masked image modeling strategy to improve generalization and better capture subtle demographic attributes. This approach offers a pathway for enhancing demographic sensitivity in multimodal user modeling tasks.
- Abstract(参考訳): 本稿では,視覚言語的人口統計データに基づくユーザ・プロファイリング作業におけるマルチモーダル事前学習モデルの性能について検討する。
これらのモデルは、社会ロボティクスにおける人間のユーザのニーズや嗜好に適応し、パーソナライズされた応答を提供し、相互作用品質を向上させるために重要である。
まず,ユーザの顔画像から得られた人口統計特性を表現するために特別に算出された2つのデータセットを紹介する。
次に、これらのデータセットにおける顕著なコントラスト付きマルチモーダル事前学習モデルCLIPの性能を、そのアウト・オブ・ザ・ボックス状態と微調整後のいずれにおいても評価する。
最初の結果は、CLIPが微調整なしで画像と人口統計記述をマッチングする際の準最適化を行うことを示している。
微調整は予測能力を大幅に向上させるが、このモデルは微妙な人口統計学的ニュアンスを効果的に一般化する際の限界を示し続けている。
これを解決するために,一般化を改善し,微妙な人口統計特性をよりよく捉えるために,マスク付き画像モデリング戦略を採用することを提案する。
このアプローチは、マルチモーダルユーザモデリングタスクにおける人口統計感度を高めるための経路を提供する。
関連論文リスト
- Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - You Only Submit One Image to Find the Most Suitable Generative Model [48.67303250592189]
我々は生成モデル同定(GMI)と呼ばれる新しい設定を提案する。
GMIは、ユーザの要求に対して最も適切な生成モデルを効率的に特定できるようにすることを目的としている。
論文 参考訳(メタデータ) (2024-12-16T14:46:57Z) - Keypoints-Integrated Instruction-Following Data Generation for Enhanced Human Pose Understanding in Multimodal Models [1.9890559505377343]
本研究では,人間のキーポイントとキャプションやバウンディングボックスといった従来の視覚的特徴を統合することで,そのようなデータを生成する新しい手法を提案する。
提案手法は,人間中心の活動に優れる微調整モデルのために設計されたデータセットを生成する。
実験の結果、LLaVA-7Bモデルと比較して21.18%の改善が見られた。
論文 参考訳(メタデータ) (2024-09-14T05:07:57Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Has Your Pretrained Model Improved? A Multi-head Posterior Based
Approach [25.927323251675386]
我々は、世界的知識の源として各エンティティに関連するメタ機能を活用し、モデルからエンティティ表現を採用する。
本稿では,これらの表現とメタ機能との整合性を,事前学習モデルの評価指標として用いることを提案する。
提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。
論文 参考訳(メタデータ) (2024-01-02T17:08:26Z) - Asymptotically Fair Participation in Machine Learning Models: an Optimal
Control Perspective [21.962258178900065]
最先端の機械学習モデルのパフォーマンスは、トレーニングデータセットで表現されていない人口層をテストすると、しばしば低下する。
我々は,最適制御の定式化を通じて,巧妙に公正な参加を実現することの課題に対処することを目的とする。
最適制御解を推定するために、ポントリャーギンの最大原理の効率的な実装を適用する。
論文 参考訳(メタデータ) (2023-11-16T22:28:38Z) - Zero-shot racially balanced dataset generation using an existing biased
StyleGAN2 [5.463417677777276]
本稿では, 偏りのある生成モデルであるStyleGAN2を用いて, 人口統計学的に多様な合成個体の画像を作成する手法を提案する。
1レースあたり50,000のIDを含むバランスの取れたデータセットで顔認識モデルをトレーニングすることで、パフォーマンスを改善し、実際のデータセットでトレーニングされたモデルに存在した可能性のあるバイアスを最小限にすることができる。
論文 参考訳(メタデータ) (2023-05-12T18:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。