論文の概要: USER-VLM 360: Personalized Vision Language Models with User-aware Tuning for Social Human-Robot Interactions
- arxiv url: http://arxiv.org/abs/2502.10636v2
- Date: Fri, 28 Feb 2025 09:38:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 16:38:45.3518
- Title: USER-VLM 360: Personalized Vision Language Models with User-aware Tuning for Social Human-Robot Interactions
- Title(参考訳): USER-VLM 360: ソーシャルヒューマンロボットインタラクションのためのユーザ認識チューニングによるパーソナライズされた視覚言語モデル
- Authors: Hamed Rahimi, Adil Bahaj, Mouad Abrini, Mahdi Khoramshahi, Mounir Ghogho, Mohamed Chetouani,
- Abstract要約: 本稿では,マルチモーダル・ユーザ・モデリングとバイアス・アウェア・最適化を統合した総合的なフレームワークであるUser-VLM 360degを提案する。
提案手法は,(1)視覚言語信号を用いてリアルタイムに対話を適応するユーザ・アウェア・チューニング,(2)嗜好最適化によるバイアス緩和,(3)人口統計,感情,関係メタデータを付加した360degの社会動機的相互作用データセットをキュレートした。
- 参考スコア(独自算出の注目度): 6.2486440301992605
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The integration of vision-language models into robotic systems constitutes a significant advancement in enabling machines to interact with their surroundings in a more intuitive manner. While VLMs offer rich multimodal reasoning, existing approaches lack user-specific adaptability, often relying on generic interaction paradigms that fail to account for individual behavioral, contextual, or socio-emotional nuances. When customization is attempted, ethical concerns arise from unmitigated biases in user data, risking exclusion or unfair treatment. To address these dual challenges, we propose User-VLM 360{\deg}, a holistic framework integrating multimodal user modeling with bias-aware optimization. Our approach features: (1) user-aware tuning that adapts interactions in real time using visual-linguistic signals; (2) bias mitigation via preference optimization; and (3) curated 360{\deg} socio-emotive interaction datasets annotated with demographic, emotion, and relational metadata. Evaluations across eight benchmarks demonstrate state-of-the-art results: +35.3% F1 in personalized VQA, +47.5% F1 in facial features understanding, 15% bias reduction, and 30X speedup over baselines. Ablation studies confirm component efficacy, and deployment on the Pepper robot validates real-time adaptability across diverse users. We open-source parameter-efficient 3B/10B models and an ethical verification framework for responsible adaptation.
- Abstract(参考訳): 視覚言語モデルのロボットシステムへの統合は、機械がより直感的に周囲と対話できるようにするための重要な進歩となっている。
VLMはリッチなマルチモーダル推論を提供するが、既存のアプローチはユーザ固有の適応性に欠けており、個々の行動、文脈、社会的なニュアンスを考慮していない一般的な相互作用パラダイムに依存していることが多い。
カスタマイズが試みられるとき、倫理的な懸念は、ユーザーデータの未解決バイアス、排除または不公平な扱いのリスクから生じる。
この2つの課題に対処するために,マルチモーダル・ユーザ・モデリングとバイアス・アウェア・最適化を組み合わせた総合的なフレームワークである User-VLM 360{\deg} を提案する。
提案手法は,(1)視覚言語信号を用いてリアルタイムで対話を適応するユーザ・アウェア・チューニング,(2)嗜好最適化によるバイアス緩和,(3)人口統計,感情,関係メタデータを付加した360{\deg}ソーシャル・エモーティブ・インタラクション・データセットである。
8つのベンチマークによる評価では、パーソナライズされたVQAの35.3% F1、顔の特徴理解の+47.5% F1、バイアス低減の15%、ベースラインの30倍のスピードアップといった最先端の結果が示されている。
アブレーション研究は、コンポーネントの有効性を確認し、Pepperロボットへのデプロイは、多様なユーザー間でリアルタイム適応性を検証する。
パラメータ効率3B/10Bモデルと、責任ある適応のための倫理的検証フレームワークをオープンソースとして公開する。
関連論文リスト
- Learning Personalized Agents from Human Feedback [36.47803872623135]
連続的なパーソナライズのための枠組みであるPAHF(Personalized Agents from Human Feedback)を紹介する。
PAHFは、ユーザ毎の明示的なメモリを使用して、ライブインタラクションからオンラインで学習する。
ベンチマークは、エージェントが最初の好みをスクラッチから学習し、その後ペルソナシフトに適応する能力を定量化する。
論文 参考訳(メタデータ) (2026-02-18T04:18:47Z) - Synthetic Interaction Data for Scalable Personalization in Large Language Models [67.31884245564086]
本稿ではPersonaGymという高忠実な合成データ生成フレームワークを紹介する。
パーソナライゼーションを静的なペルソナ-参照ペアとして扱う以前の作業とは異なり、PersonaGymは動的な選好プロセスをモデル化する。
我々は,高忠実度マルチターンパーソナライズされたインタラクショントラジェクトリの大規模かつ高品質で多様な合成データセットであるPersonaAtlasをリリースする。
論文 参考訳(メタデータ) (2026-02-12T20:41:22Z) - P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling [66.55381105691818]
P-GenRM(Personalized Generative Reward Model)を提案する。
P-GenRMは、選好信号を適応的なペルソナとスコアリングルーリックを導出する構造化評価チェーンに変換する。
さらにユーザをユーザプロトタイプにクラスタリングし、二重粒度スケーリングメカニズムを導入している。
論文 参考訳(メタデータ) (2026-02-12T16:07:22Z) - A Cloud-Based Cross-Modal Transformer for Emotion Recognition and Adaptive Human-Computer Interaction [4.6927139685668315]
マルチモーダル感情認識と適応型ヒューマンコンピュータインタラクションのためのクラウドベースのクロスモーダルトランスフォーマー(CMT)フレームワーク。
モデルは、事前訓練されたエンコーダを使用して、視覚信号、聴覚信号、テキスト信号を統合する。
システムは大規模ユーザインタラクションのためのスケーラブルで低レイテンシな感情認識を可能にする。
論文 参考訳(メタデータ) (2025-11-21T17:29:16Z) - Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It [81.50711040539566]
現在の大規模言語モデル(LLM)開発は、タスク解決と優先順位調整を別の課題として扱う。
静的ベンチマークを対話型パーソナライズタスクに変換する評価手法であるPreFDISCOを紹介する。
我々のフレームワークは、ユーザコンテキストに応じて、同じ質問が異なる推論チェーンを必要とするシナリオを作成します。
論文 参考訳(メタデータ) (2025-09-30T18:55:28Z) - RoboView-Bias: Benchmarking Visual Bias in Embodied Agents for Robotic Manipulation [67.38036090822982]
ロボット操作における視覚バイアスの定量化を目的とした,最初のベンチマークであるRoboView-Biasを提案する。
我々は、個々の視覚的要因とその相互作用によって引き起こされるバイアスの堅牢な測定を可能にする2,127のタスクインスタンスを作成します。
本研究は,視覚バイアスの系統的解析が,安全で信頼性の高い汎用的なエンボディエージェントの開発に必須であることを示す。
論文 参考訳(メタデータ) (2025-09-26T13:53:25Z) - HumAIne-Chatbot: Real-Time Personalized Conversational AI via Reinforcement Learning [0.4931504898146351]
textbfHumAIne-chatbotはAIによる会話エージェントで、新しいユーザプロファイリングフレームワークを通じて応答をパーソナライズする。
ライブインタラクションの間、オンライン強化学習エージェントは暗黙の信号を組み合わせることで、ユーザ毎のモデルを洗練する。
その結果、パーソナライズ機能を有効にすると、ユーザ満足度、パーソナライズ精度、タスク達成度が一貫した改善が見られた。
論文 参考訳(メタデータ) (2025-09-04T15:16:38Z) - Robust Relevance Feedback for Interactive Known-Item Video Search [30.382002857815497]
我々は、トップk選択の安定性を改善するためのペアワイズ相対判定フィードバックを導入する。
ユーザ認識を複数のサブパーセプションに分解し,それぞれが独立した埋め込み空間として表現される。
我々は,各ユーザフィードバックインスタンスに基づいて,サブパーセプションの組み合わせを推定する予測的ユーザモデルを開発する。
論文 参考訳(メタデータ) (2025-05-21T05:31:49Z) - EdgeWisePersona: A Dataset for On-Device User Profiling from Natural Language Interactions [0.6650227510403052]
本稿では,エッジデバイス上に展開可能な小型言語モデルの評価と改善を目的とした,新しいデータセットを提案する。
データセットの中核は構造化されたユーザプロファイルであり、それぞれがルーチンのセットによって定義される。
大規模言語モデル(LLM)は、現実的で多様性があり、コンテキスト対応の対話をシミュレートする、対応する対話セッションを生成する。
論文 参考訳(メタデータ) (2025-05-16T16:29:21Z) - Anyprefer: An Agentic Framework for Preference Data Synthesis [62.3856754548222]
ターゲットモデルを調整するための高品質な嗜好データを合成するフレームワークであるAnypreferを提案する。
審査員モデルの応答を正確に評価するために、外部ツールが導入される。
合成されたデータは、58Kの高品質な選好ペアからなる新しい選好データセットであるAnyprefer-V1にコンパイルされる。
論文 参考訳(メタデータ) (2025-04-27T15:21:59Z) - Reasoning LLMs for User-Aware Multimodal Conversational Agents [3.533721662684487]
社会ロボティクスにおけるパーソナライゼーションは、効果的な人間とロボットの相互作用を促進するために重要である。
本稿では,ユーザ認識型対話エージェントのための新しいフレームワークUSER-LLM R1を提案する。
提案手法では,チェーン・オブ・シンク(CoT)推論モデルを統合し,ユーザの好みや視覚言語モデルを反復的に推測する。
論文 参考訳(メタデータ) (2025-04-02T13:00:17Z) - Mind the Gap! Static and Interactive Evaluations of Large Audio Models [55.87220295533817]
大型オーディオモデル(LAM)は、音声ネイティブな体験をパワーアップするために設計されている。
本研究は,484名の参加者から,LAMを評価し,7,500名のLAMインタラクションを収集する対話的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-21T20:29:02Z) - Uncertain Multi-Objective Recommendation via Orthogonal Meta-Learning Enhanced Bayesian Optimization [30.031396809114625]
本稿では,ルールベースの精度駆動システムから行動認識,不確実な多目的RSに至るまで,RSの自律性を5つの異なるレベルに分類する新しい枠組みを提案する。
個人の好みに基づいて複数の目的を動的に識別し、最適化し、より倫理的でインテリジェントなユーザー中心のレコメンデーションを促進するアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-18T08:10:09Z) - DEEPER Insight into Your User: Directed Persona Refinement for Dynamic Persona Modeling [38.18345641589625]
本稿では,動的ペルソナモデリングのための新しいアプローチであるDEEPERを提案する。
10ドメインにわたる4800人のユーザによる動的ペルソナモデリングの実験は、DEEPERの優れたペルソナ最適化能力を強調している。
論文 参考訳(メタデータ) (2025-02-16T11:02:37Z) - Combo: Co-speech holistic 3D human motion generation and efficient customizable adaptation in harmony [55.26315526382004]
共同音声合成のための新しいフレームワークComboを提案する。
特に、興味の生成モデルにおけるマルチインプット・マルチプル・アウトプットの性質として、基本的な課題があげられる。
コンボは高品質な動きを生み出すのに非常に効果的であるが、アイデンティティや感情の伝達にも効果的である。
論文 参考訳(メタデータ) (2024-08-18T07:48:49Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Enhancing Apparent Personality Trait Analysis with Cross-Modal Embeddings [0.5461938536945723]
本稿では,ショートビデオ記録で訓練した人格特性予測のために,シームズ拡張を用いたマルチモーダルディープニューラルネットワークを提案する。
分析されたデータセットの高度に集中したターゲット分布のため、第3桁の変更は関連している。
論文 参考訳(メタデータ) (2024-05-06T20:51:28Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - Parameter-free Dynamic Graph Embedding for Link Prediction [18.104685554457394]
FreeGEMはリンク予測のためのパラメータフリーな動的グラフ埋め込み手法である。
その結果,FreeGEMは36倍以上の効率向上を実現しつつ,最先端の手法よりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-15T04:17:09Z) - Improving Personality Consistency in Conversation by Persona Extending [22.124187337032946]
本稿では,Persona Retrieval Model(PRM)とPosterior-Scored Transformer(PS-Transformer)の2つのサブコンポーネントからなる新しい検索・予測パラダイムを提案する。
提案モデルでは,自動測定と人的評価の両面で大幅に改善されている。
論文 参考訳(メタデータ) (2022-08-23T09:00:58Z) - Optimizing Interactive Systems via Data-Driven Objectives [70.3578528542663]
本稿では,観察されたユーザインタラクションから直接目的を推測する手法を提案する。
これらの推論は、事前の知識によらず、様々な種類のユーザー行動にまたがって行われる。
本稿では,これらの推定対象を最適化するために利用する新しいアルゴリズムであるInteractive System(ISO)を紹介する。
論文 参考訳(メタデータ) (2020-06-19T20:49:14Z) - Personalization in Human-AI Teams: Improving the Compatibility-Accuracy
Tradeoff [0.0]
本稿では,更新後のシステムの精度向上と,事前のユーザエクスペリエンスとの互換性のトレードオフについて検討する。
特定のユーザに対して損失関数をパーソナライズすることにより、それらのユーザに対する互換性-正確性トレードオフを改善することが可能であることを示す。
論文 参考訳(メタデータ) (2020-04-05T19:35:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。