論文の概要: Empathic Prompting: Non-Verbal Context Integration for Multimodal LLM Conversations
- arxiv url: http://arxiv.org/abs/2510.20743v1
- Date: Thu, 23 Oct 2025 17:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.433602
- Title: Empathic Prompting: Non-Verbal Context Integration for Multimodal LLM Conversations
- Title(参考訳): Empathic Prompting:マルチモーダルLLM会話のための非言語文脈統合
- Authors: Lorenzo Stacchio, Andrea Ubaldi, Alessandro Galdelli, Maurizio Mauri, Emanuele Frontoni, Andrea Gaggioli,
- Abstract要約: 暗黙的な非言語的文脈でLLM(Large Language Model)の会話を豊かにするマルチモーダルなヒューマン・AIインタラクションのためのフレームワークであるEmpathic Promptingを提案する。
このシステムは、商業的な表情認識サービスを統合し、ユーザの感情的な手がかりをキャプチャし、プロンプト中にコンテキスト信号として埋め込む。
- 参考スコア(独自算出の注目度): 45.06725378575657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Empathic Prompting, a novel framework for multimodal human-AI interaction that enriches Large Language Model (LLM) conversations with implicit non-verbal context. The system integrates a commercial facial expression recognition service to capture users' emotional cues and embeds them as contextual signals during prompting. Unlike traditional multimodal interfaces, empathic prompting requires no explicit user control; instead, it unobtrusively augments textual input with affective information for conversational and smoothness alignment. The architecture is modular and scalable, allowing integration of additional non-verbal modules. We describe the system design, implemented through a locally deployed DeepSeek instance, and report a preliminary service and usability evaluation (N=5). Results show consistent integration of non-verbal input into coherent LLM outputs, with participants highlighting conversational fluidity. Beyond this proof of concept, empathic prompting points to applications in chatbot-mediated communication, particularly in domains like healthcare or education, where users' emotional signals are critical yet often opaque in verbal exchanges.
- Abstract(参考訳): 暗黙的な非言語的文脈でLLM(Large Language Model)の会話を豊かにするマルチモーダルなヒューマン・AIインタラクションのための新しいフレームワークであるEmpathic Promptingを提案する。
このシステムは、商業的な表情認識サービスを統合し、ユーザの感情的な手がかりをキャプチャし、プロンプト中にコンテキスト信号として埋め込む。
従来のマルチモーダルインタフェースとは異なり、共感的なプロンプトは明示的なユーザコントロールを必要としない。
アーキテクチャはモジュール化され、拡張性があり、追加の非言語モジュールを統合することができる。
本稿では、ローカルにデプロイされたDeepSeekインスタンスを通じて実装されたシステム設計について述べ、予備サービスとユーザビリティの評価(N=5)を報告する。
その結果,非言語入力のコヒーレントLLM出力への一貫した統合が示され,参加者は会話の流動性を強調した。
この概念の証明の他に、チャットボットによるコミュニケーション、特に医療や教育のような分野において、ユーザーの感情的なシグナルが批判的でありながら、口頭での交流では不透明である分野において、共感的な示唆が向けられる。
関連論文リスト
- Bridging UI Design and chatbot Interactions: Applying Form-Based Principles to Conversational Agents [0.2356141385409842]
本稿では,大規模言語モデル(LLM)プロンプト内の明示的なタスクとして,GUIにインスパイアされたメタファ(サブミット様)とコンテキストスイッチング(リセット様)をモデル化することを提案する。
ホテル予約と顧客管理のシナリオにおけるアプローチを実証し、マルチターンタスクコヒーレンス、ユーザ満足度、効率性の改善を強調した。
論文 参考訳(メタデータ) (2025-07-02T16:24:50Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Conversation Understanding using Relational Temporal Graph Neural
Networks with Auxiliary Cross-Modality Interaction [2.1261712640167856]
感情認識は人間の会話理解にとって重要な課題である。
我々は,CORECT(Cross-Modality Interaction)を用いた入力時間グラフニューラルネットワークを提案する。
CORECTは会話レベルの対話と発話レベルの時間的依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2023-11-08T07:46:25Z) - Context-Dependent Embedding Utterance Representations for Emotion
Recognition in Conversations [1.8126187844654875]
我々は会話の文脈を利用した会話における感情認識にアプローチする。
それぞれの発話の文脈依存的な埋め込み表現を提案する。
提案手法の有効性は,オープンドメインのDailyDialogデータセットとタスク指向のEmoWOZデータセットで検証される。
論文 参考訳(メタデータ) (2023-04-17T12:37:57Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z) - Hierarchical Summarization for Longform Spoken Dialog [1.995792341399967]
音声対話の広汎性にもかかわらず、自動音声理解と品質情報抽出は依然として著しく貧弱である。
テキストを理解することに比べ、聴覚コミュニケーションは、話者の拡散、非公式な散文スタイル、構造の欠如など、多くの追加的な課題を生んでいる。
本稿では、2段階のASRとテキスト要約パイプラインを提案し、これらの音声認識課題を解決するためのセマンティックセグメンテーションとマージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-21T23:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。