論文の概要: USER-VLM 360: Personalized Vision Language Models with User-aware Tuning for Social Human-Robot Interactions
- arxiv url: http://arxiv.org/abs/2502.10636v1
- Date: Sat, 15 Feb 2025 02:25:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:08:55.675874
- Title: USER-VLM 360: Personalized Vision Language Models with User-aware Tuning for Social Human-Robot Interactions
- Title(参考訳): USER-VLM 360: ソーシャルヒューマンロボットインタラクションのためのユーザ認識チューニングによるパーソナライズされた視覚言語モデル
- Authors: Hamed Rahimi, Adil Bahaj, Mouad Abrini, Mahdi Khoramshahi, Mounir Ghogho, Mohamed Chetouani,
- Abstract要約: 本稿では,マルチモーダル・ユーザ・モデリングとバイアス・アウェア・最適化を統合した総合的なフレームワークであるUser-VLM 360degを提案する。
提案手法は,(1)視覚言語信号を用いてリアルタイムに対話を適応するユーザ・アウェア・チューニング,(2)嗜好最適化によるバイアス緩和,(3)人口統計,感情,関係メタデータを付加した360degの社会動機的相互作用データセットをキュレートした。
- 参考スコア(独自算出の注目度): 6.2486440301992605
- License:
- Abstract: The integration of vision-language models into robotic systems constitutes a significant advancement in enabling machines to interact with their surroundings in a more intuitive manner. While VLMs offer rich multimodal reasoning, existing approaches lack user-specific adaptability, often relying on generic interaction paradigms that fail to account for individual behavioral, contextual, or socio-emotional nuances. When customization is attempted, ethical concerns arise from unmitigated biases in user data, risking exclusion or unfair treatment. To address these dual challenges, we propose User-VLM 360{\deg}, a holistic framework integrating multimodal user modeling with bias-aware optimization. Our approach features: (1) user-aware tuning that adapts interactions in real time using visual-linguistic signals; (2) bias mitigation via preference optimization; and (3) curated 360{\deg} socio-emotive interaction datasets annotated with demographic, emotion, and relational metadata. Evaluations across eight benchmarks demonstrate state-of-the-art results: +35.3% F1 in personalized VQA, +47.5% F1 in facial features understanding, 15% bias reduction, and 30X speedup over baselines. Ablation studies confirm component efficacy, and deployment on the Pepper robot validates real-time adaptability across diverse users. We open-source parameter-efficient 3B/10B models and an ethical verification framework for responsible adaptation.
- Abstract(参考訳): 視覚言語モデルのロボットシステムへの統合は、機械がより直感的に周囲と対話できるようにするための重要な進歩となっている。
VLMはリッチなマルチモーダル推論を提供するが、既存のアプローチはユーザ固有の適応性に欠けており、個々の行動、文脈、社会的なニュアンスを考慮していない一般的な相互作用パラダイムに依存していることが多い。
カスタマイズが試みられるとき、倫理的な懸念は、ユーザーデータの未解決バイアス、排除または不公平な扱いのリスクから生じる。
この2つの課題に対処するために,マルチモーダル・ユーザ・モデリングとバイアス・アウェア・最適化を組み合わせた総合的なフレームワークである User-VLM 360{\deg} を提案する。
提案手法は,(1)視覚言語信号を用いてリアルタイムで対話を適応するユーザ・アウェア・チューニング,(2)嗜好最適化によるバイアス緩和,(3)人口統計,感情,関係メタデータを付加した360{\deg}ソーシャル・エモーティブ・インタラクション・データセットである。
8つのベンチマークによる評価では、パーソナライズされたVQAの35.3% F1、顔の特徴理解の+47.5% F1、バイアス低減の15%、ベースラインの30倍のスピードアップといった最先端の結果が示されている。
アブレーション研究は、コンポーネントの有効性を確認し、Pepperロボットへのデプロイは、多様なユーザー間でリアルタイム適応性を検証する。
パラメータ効率3B/10Bモデルと、責任ある適応のための倫理的検証フレームワークをオープンソースとして公開する。
関連論文リスト
- Combo: Co-speech holistic 3D human motion generation and efficient customizable adaptation in harmony [55.26315526382004]
共同音声合成のための新しいフレームワークComboを提案する。
特に、興味の生成モデルにおけるマルチインプット・マルチプル・アウトプットの性質として、基本的な課題があげられる。
コンボは高品質な動きを生み出すのに非常に効果的であるが、アイデンティティや感情の伝達にも効果的である。
論文 参考訳(メタデータ) (2024-08-18T07:48:49Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Enhancing Apparent Personality Trait Analysis with Cross-Modal Embeddings [0.5461938536945723]
本稿では,ショートビデオ記録で訓練した人格特性予測のために,シームズ拡張を用いたマルチモーダルディープニューラルネットワークを提案する。
分析されたデータセットの高度に集中したターゲット分布のため、第3桁の変更は関連している。
論文 参考訳(メタデータ) (2024-05-06T20:51:28Z) - Interactive Hyperparameter Optimization in Multi-Objective Problems via
Preference Learning [65.51668094117802]
我々は多目的機械学習(ML)に適した人間中心型対話型HPO手法を提案する。
ユーザが自分のニーズに最も適した指標を推測する代わりに、私たちのアプローチは自動的に適切な指標を学習します。
論文 参考訳(メタデータ) (2023-09-07T09:22:05Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - Parameter-free Dynamic Graph Embedding for Link Prediction [18.104685554457394]
FreeGEMはリンク予測のためのパラメータフリーな動的グラフ埋め込み手法である。
その結果,FreeGEMは36倍以上の効率向上を実現しつつ,最先端の手法よりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-15T04:17:09Z) - Improving Personality Consistency in Conversation by Persona Extending [22.124187337032946]
本稿では,Persona Retrieval Model(PRM)とPosterior-Scored Transformer(PS-Transformer)の2つのサブコンポーネントからなる新しい検索・予測パラダイムを提案する。
提案モデルでは,自動測定と人的評価の両面で大幅に改善されている。
論文 参考訳(メタデータ) (2022-08-23T09:00:58Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Optimizing Interactive Systems via Data-Driven Objectives [70.3578528542663]
本稿では,観察されたユーザインタラクションから直接目的を推測する手法を提案する。
これらの推論は、事前の知識によらず、様々な種類のユーザー行動にまたがって行われる。
本稿では,これらの推定対象を最適化するために利用する新しいアルゴリズムであるInteractive System(ISO)を紹介する。
論文 参考訳(メタデータ) (2020-06-19T20:49:14Z) - Personalization in Human-AI Teams: Improving the Compatibility-Accuracy
Tradeoff [0.0]
本稿では,更新後のシステムの精度向上と,事前のユーザエクスペリエンスとの互換性のトレードオフについて検討する。
特定のユーザに対して損失関数をパーソナライズすることにより、それらのユーザに対する互換性-正確性トレードオフを改善することが可能であることを示す。
論文 参考訳(メタデータ) (2020-04-05T19:35:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。