論文の概要: HARMONI: Multimodal Personalization of Multi-User Human-Robot Interactions with LLMs
- arxiv url: http://arxiv.org/abs/2601.19839v1
- Date: Tue, 27 Jan 2026 17:45:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.424818
- Title: HARMONI: Multimodal Personalization of Multi-User Human-Robot Interactions with LLMs
- Title(参考訳): HARMONI:LLMを用いたマルチユーザヒューマンロボットインタラクションのマルチモーダルパーソナライズ
- Authors: Jeanne Malécot, Hamed Rahimi, Jeanne Cattoni, Marie Samson, Mouad Abrini, Mahdi Khoramshahi, Maribel Pino, Mohamed Chetouani,
- Abstract要約: 本稿では,社会支援型ロボットによる長期マルチユーザインタラクション管理を実現するマルチモーダルパーソナライズフレームワークであるHARMONIを提案する。
i)アクティブな話者を識別し、マルチモーダルな入力を抽出する知覚モジュール、(ii)環境の表現を維持する世界モデリングモジュール、(iii)長期的な話者固有のプロファイルを更新するユーザモデリングモジュール、(iv)文脈的に基礎と倫理的に通知された応答を生成する生成モジュールである。
- 参考スコア(独自算出の注目度): 1.4755786263360526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing human-robot interaction systems often lack mechanisms for sustained personalization and dynamic adaptation in multi-user environments, limiting their effectiveness in real-world deployments. We present HARMONI, a multimodal personalization framework that leverages large language models to enable socially assistive robots to manage long-term multi-user interactions. The framework integrates four key modules: (i) a perception module that identifies active speakers and extracts multimodal input; (ii) a world modeling module that maintains representations of the environment and short-term conversational context; (iii) a user modeling module that updates long-term speaker-specific profiles; and (iv) a generation module that produces contextually grounded and ethically informed responses. Through extensive evaluation and ablation studies on four datasets, as well as a real-world scenario-driven user-study in a nursing home environment, we demonstrate that HARMONI supports robust speaker identification, online memory updating, and ethically aligned personalization, outperforming baseline LLM-driven approaches in user modeling accuracy, personalization quality, and user satisfaction.
- Abstract(参考訳): 既存の人間とロボットのインタラクションシステムには、持続的なパーソナライゼーションと動的適応のメカニズムが欠如しており、現実のデプロイメントにおけるその有効性を制限している。
本稿では,大規模言語モデルを活用するマルチモーダルパーソナライズフレームワークであるHARMONIについて述べる。
このフレームワークは4つの主要なモジュールを統合している。
一 能動話者を識別し、マルチモーダル入力を抽出する知覚モジュール
二 環境及び短期会話状況の表現を維持する世界モデリングモジュール
三 長期話者特定プロファイルを更新するユーザモデリングモジュール
(四)文脈的に根拠と倫理的に情報を得た応答を生成する生成モジュール。
介護老人ホーム環境における現実のシナリオ駆動型ユーザスタディと同様に,4つのデータセットの広範囲な評価とアブレーション研究を通じて,HARMONIが頑健な話者識別,オンラインメモリ更新,倫理的に整合したパーソナライゼーション,ユーザモデリング精度,パーソナライズ品質,ユーザ満足度において,ベースラインLLM駆動アプローチよりも優れたパフォーマンスを実現していることを示す。
関連論文リスト
- Dynamic Personality Adaptation in Large Language Models via State Machines [1.6986898305640261]
本稿では,動的パーソナリティシミュレーションのためのモデルに依存しないフレームワークを提案する。
私たちのアーキテクチャの一部は,潜伏軸に沿った対話を評価する,連続的な性格評価のためのモジュールパイプラインです。
その結果、システムはユーザの入力にパーソナリティの状態を適応させるだけでなく、ユーザの行動にも影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2026-02-25T18:05:11Z) - AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding [73.05946667683259]
最近の大規模言語モデル(MLLM)は、強い認識を示すが、多話者、対話中心の設定に苦戦している。
本質的にエージェント的なタスクを中心に設計されたベンチマークであるAMUSEを紹介します。
我々は、報酬最適化と本質的なマルチモーダル自己評価を統合するデータ効率の高いエージェントアライメントフレームワークRAFTを提案する。
論文 参考訳(メタデータ) (2025-12-18T07:01:47Z) - InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue [35.99134148462425]
音声-視覚的マルチターンインタラクションのための,統一的でオープンソースのOmni-Modal大言語モデルであるInteractive Omniを紹介する。
これを実現するために、視覚エンコーダ、オーディオエンコーダ、大言語モデル、音声デコーダを統合モデルに統合し、タスクの理解と生成を行う。
我々は、Omni-modal理解のための事前学習を含む、堅牢なクロスモーダル機能を確保するためのマルチステージトレーニング戦略を設計する。
論文 参考訳(メタデータ) (2025-10-15T16:52:48Z) - FLEXI: Benchmarking Full-duplex Human-LLM Speech Interaction [49.83226596963294]
音声とコンピュータの対話によりリアルタイム音声対話システムを実現する。
これらのモデルのモデリングとベンチマークは、依然として根本的な課題である。
フルヒューマン音声対話のための最初のベンチマークであるFLEXIを紹介する。
論文 参考訳(メタデータ) (2025-09-26T11:57:42Z) - ASMR: Augmenting Life Scenario using Large Generative Models for Robotic Action Reflection [21.75681306780917]
本稿では,ロボット支援シナリオにおけるデータ拡張に着目した新しいフレームワークを提案する。
潜在的な会話や環境コンテキストをシミュレートするために、洗練された大きな言語モデルを活用する。
さらに生成されたデータは、最新のマルチモーダルモデルを洗練し、適切なアクションをより正確に決定するのに役立つ。
論文 参考訳(メタデータ) (2025-06-16T19:58:54Z) - Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z) - LEGENT: Open Platform for Embodied Agents [60.71847900126832]
LEGENTはLarge Language Models (LLM) とLarge Multimodal Models (LMM) を用いたエンボディエージェントを開発するためのオープンでスケーラブルなプラットフォームである。
LEGENTはリッチでインタラクティブな3D環境を提供し、コミュニケーション可能でアクション可能なエージェントをユーザフレンドリーなインターフェースと組み合わせている。
実験では、EGENT生成データに基づいて訓練された胚性視覚言語モデルが、エンボディタスクにおいてGPT-4Vを超える。
論文 参考訳(メタデータ) (2024-04-28T16:50:12Z) - MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Dyadformer: A Multi-modal Transformer for Long-Range Modeling of Dyadic
Interactions [33.67477398036821]
そこで我々はDyadformerを提案する。Dyadformerは、動的相互作用における個人的および対人的特徴をモデル化する、新しいマルチモーダルマルチオブジェクトトランスフォーマーアーキテクチャである。
提案するクロスオブジェクト層は,対象者間のインタラクションを注意的操作により明示的にモデル化することを可能にする。
この概念実証アプローチは、双方の相互作用の複数モーダリティと結合モデリングが、より長い時間にわたって、個々の属性を予測するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-09-20T12:45:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。