論文の概要: EmoAssist: Emotional Assistant for Visual Impairment Community
- arxiv url: http://arxiv.org/abs/2502.09285v1
- Date: Thu, 13 Feb 2025 13:00:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:50:42.080151
- Title: EmoAssist: Emotional Assistant for Visual Impairment Community
- Title(参考訳): EmoAssist: 視覚障害者コミュニティのための感情アシスタント
- Authors: Xingyu Qi, He Li, Linjie Li, Zhenyu Wu,
- Abstract要約: 本稿では,視覚障害者コミュニティにおけるLMMの補助的性能を評価するための総合ベンチマークであるEmoAssist Benchmarkを紹介する。
我々は,VI コミュニティ向けに特別に設計された感情支援 LMM である EmoAssist Model を提案する。
実験の結果,EmoAssist Modelは暗黙の感情や意図の認識を著しく向上させ,共感的な反応を与え,行動可能なガイダンスを提供することが示された。
- 参考スコア(独自算出の注目度): 37.426545574666626
- License:
- Abstract: The rapid advancement of large multi-modality models (LMMs) has significantly propelled the integration of artificial intelligence into practical applications. Visual Question Answering (VQA) systems, which can process multi-modal data including vision, text, and audio, hold great potential for assisting the Visual Impairment (VI) community in navigating complex and dynamic real-world environments. However, existing VI assistive LMMs overlook the emotional needs of VI individuals, and current benchmarks lack emotional evaluation of these LMMs. To address these gaps, this paper introduces the EmoAssist Benchmark, a comprehensive benchmark designed to evaluate the assistive performance of LMMs for the VI community. To the best of our knowledge, this is the first benchmark that incorporates emotional intelligence as a key consideration. Furthermore, we propose the EmoAssist Model, an Emotion-Assistive LMM specifically designed for the VI community. The EmoAssist Model utilizes Direct Preference Optimization (DPO) to align outputs with human emotional preferences. Experiment results demonstrate that the EmoAssist Model significantly enhances the recognition of implicit emotions and intentions of VI users, delivers empathetic responses, and provides actionable guidance. Specifically, it shows respective improvements of 147.8% and 89.7% in the Empathy and Suggestion metrics on the EmoAssist Benchmark, compared to the pre-tuning LMM, and even outperforms state-of-the-art LLMs such as GPT-4o.
- Abstract(参考訳): 大規模マルチモダリティモデル(LMM)の急速な進歩は、人工知能の実践的応用への統合を著しく推進している。
VQA(Visual Question Answering)システムは、視覚、テキスト、オーディオを含むマルチモーダルデータを処理できるシステムで、複雑で動的な現実世界環境をナビゲートする上で、視覚障害(VI)コミュニティを支援する大きな可能性を秘めている。
しかし、既存の VI 支援 LMM は VI 個人の感情的欲求を見落としており、現在のベンチマークではこれらの LMM に対する感情的評価が欠如している。
これらのギャップに対処するために,本稿では,VIコミュニティにおけるLMMの補助性能を評価するための総合ベンチマークであるEmoAssist Benchmarkを紹介する。
私たちの知る限りでは、感情的な知性を重要な考慮事項として取り入れた最初のベンチマークです。
さらに,VIコミュニティ向けに設計された感情支援型LMMであるEmoAssist Modelを提案する。
EmoAssist Modelは、直接選好最適化(DPO)を使用して、アウトプットを人間の感情的嗜好と整合させる。
実験の結果,EmoAssist Modelは暗黙の感情や意図の認識を著しく向上させ,共感的な反応を与え,行動可能なガイダンスを提供することが示された。
具体的には、EmoAssist BenchmarkのEmpathy and Suggestionの147.8%と89.7%の改善点を示しており、事前調整されたLMMと比較して、GPT-4oのような最先端のLLMよりも優れている。
関連論文リスト
- EmPO: Emotion Grounding for Empathetic Response Generation through Preference Optimization [9.934277461349696]
共感反応生成は会話エージェントの望ましい側面である。
感情接地に基づく理論駆動の嗜好データセットを構築する新しい手法を提案する。
本研究では,LLMを一般性能を維持しつつ,好みの最適化により共感応答生成に適応させることができることを示す。
論文 参考訳(メタデータ) (2024-06-27T10:41:22Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文 参考訳(メタデータ) (2024-06-17T03:01:22Z) - F-LMM: Grounding Frozen Large Multimodal Models [53.8059045627934]
我々は,人間とAIの会話において,F-LMM(F-LMM)を解凍したLMMを提示する。
トレーニング可能なCNNレイヤをいくつか使用すれば、ワードピクセルのアテンション重みをマスクロジットに変換することができる。
我々のF-LMMは特別なセグメンテーショントークンを学習したり、高品質な接地命令チューニングデータを利用したりもしません。
論文 参考訳(メタデータ) (2024-06-09T15:14:26Z) - Enhancing Emotional Generation Capability of Large Language Models via Emotional Chain-of-Thought [50.13429055093534]
大規模言語モデル(LLM)は様々な感情認識タスクにおいて顕著な性能を示した。
本研究では,感情生成タスクにおけるLLMの性能を高めるための感情連鎖(ECoT)を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:42:10Z) - VRPTEST: Evaluating Visual Referring Prompting in Large Multimodal
Models [19.32035955420203]
我々は,様々な視覚的参照促進戦略を用いて,LMM(Large Multimodal Models)の最初の包括的解析を行う。
人間の介入や手動ラベリングを必要とせずにLMMの精度を評価するための自動評価フレームワークを開発した。
現在のプロプライエタリモデルは一般的にオープンソースモデルよりも優れており、平均精度は22.70%向上している。
論文 参考訳(メタデータ) (2023-12-07T06:53:55Z) - Large Language Models Understand and Can be Enhanced by Emotional
Stimuli [53.53886609012119]
我々は、感情的な刺激を理解するために、大規模言語モデルの能力を探究する第一歩を踏み出す。
実験の結果,LLMは感情的知能を把握でき,その性能は感情的刺激によって改善できることがわかった。
EmotionPromptが生成タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-07-14T00:57:12Z) - FAF: A novel multimodal emotion recognition approach integrating face,
body and text [13.485538135494153]
我々は、感情認識作業を容易にするために、大規模マルチモーダル感情データセット「HED」を構築した。
認識の精度を高めるため,重要な感情情報の探索に「特徴アフター・フィーチャー」フレームワークが用いられた。
我々は、"HED"データセットの評価に様々なベンチマークを使用し、その性能を本手法と比較した。
論文 参考訳(メタデータ) (2022-11-20T14:43:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。