Fugu-MT 論文翻訳(概要): Towards Emotion Consistency Analysis of Large Language Models in Emotional Conversational Contexts

論文の概要: Towards Emotion Consistency Analysis of Large Language Models in Emotional Conversational Contexts

arxiv url: http://arxiv.org/abs/2605.06476v1
Date: Thu, 07 May 2026 16:01:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-08 22:27:11.969628
Title: Towards Emotion Consistency Analysis of Large Language Models in Emotional Conversational Contexts
Title（参考訳）: 感情会話文脈における大規模言語モデルの感情整合性分析に向けて
Authors: Sneha Oram, Ojaswita Bhushan, Pushpak Bhattacharyya,
Abstract要約: 本研究では,感情駆動型会話環境において,Large Language Models (LLMs) が生成する応答の一貫性について検討する。以上の結果から,LLMは平均以下の性能を示し,クエリに埋め込まれた偽の信念に弱いままであることが示唆された。その結果,LLMの高度で感情に敏感な文脈への展開について重要な考察がもたらされた。
参考スコア（独自算出の注目度）: 41.84500687049023
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we conduct an analysis to examine the consistency of Large Language Models (LLMs) with respect to their own generated responses in an emotionally-driven conversational context. Specifically, the text generated by LLM is framed as a query to the same model, and its responses are subsequently assessed. This is performed with three queries across two dimensions of extreme and moderate emotions. The three queries are, in particular, false claim queries that contain inherently wrong assumptions (false presuppositions) in increasing order of intensity. Two commercial models, Claude-3.5-haiku, GPT4o-mini, and a medium-sized model, Mistral-7B, are considered in the study. Our findings indicate that LLMs exhibit below-average performance and remain vulnerable to false beliefs embedded within queries. This susceptibility is especially pronounced for moderate emotional content. Furthermore, an extended attention-score-based analysis highlights a shift in models' priority from evaluative to generative. The results raise important considerations for LLMs' deployment in high-stakes, emotionally sensitive contexts.
Abstract（参考訳）: 本研究では,大規模言語モデル(LLM)の一貫性を,感情駆動型会話の文脈において,それらが生成する応答に対して検証する。具体的には、LLMによって生成されたテキストは、同じモデルに対するクエリとしてフレーム化され、その後、その応答が評価される。これは、極端な感情と穏健な感情の2次元にわたる3つのクエリで実行される。 3つのクエリは、特に偽のクレームクエリであり、強度の順に本質的に間違った仮定(偽の前提)を含む。本研究では,2種類の商用モデル,Claude-3.5-haiku,GPT4o-mini,中型モデルMistral-7Bが検討されている。以上の結果から,LLMは平均以下の性能を示し,クエリに埋め込まれた偽の信念に弱いままであることが示唆された。この感受性は、中程度の感情的な内容に対して特に顕著である。さらに、注意スコアに基づく分析が拡張され、モデルの優先順位が評価から生成へと変化していることが浮き彫りになった。その結果,LLMの高度で感情に敏感な文脈への展開について重要な考察がもたらされた。

関連論文リスト

Evaluating LLM Alignment on Personality Inference from Real-World Interview Data [7.061237517845673]
大規模言語モデル(LLM)は、複雑な心理的理解を必要とする役割にますます配備されている。このような応用の重要な側面である人間の性格特性を解釈する能力は、まだ解明されていない。本研究では, 半構造化された面接書と, 検証された5つの特徴スコアを組み合わせた新しいベンチマークを提案する。
論文参考訳（メタデータ） (2025-09-16T16:54:35Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
Beyond No: Quantifying AI Over-Refusal and Emotional Attachment Boundaries [0.0]
大規模言語モデル(LLM)における感情境界処理を評価するためのオープンソースのベンチマークと評価フレームワークを提案する。パターンマッチング応答解析により,3つのLLMを適切な感情境界を維持する能力で評価した。本フレームワークは, 直接拒絶, 謝罪, 説明, 偏向, 認知, 境界設定, 感情認識の7つの主要なパターンにまたがる応答を定量化する。
論文参考訳（メタデータ） (2025-02-20T19:09:40Z)
Consistency of Responses and Continuations Generated by Large Language Models on Social Media [11.076748897687764]
大規模言語モデル(LLM)は、テキスト生成において顕著な能力を示すが、ソーシャルメディアの文脈における感情的一貫性とセマンティック・コヒーレンス(セマンティック・コヒーレンス)は十分に理解されていない。本研究では,LLMが情緒的内容をどのように処理し,継続および応答タスクを通じて意味的関係を維持するかを検討する。
論文参考訳（メタデータ） (2025-01-14T13:19:47Z)
MMRel: A Relation Understanding Benchmark in the MLLM Era [72.95901753186227]
MMRel(Multi-Modal Relation Understanding)は、オブジェクト間の関係に関する大規模で高品質で多様なデータを特徴付けるベンチマークである。 MMRelは、関係理解に基づくMLLMの評価や、関係理解能力を高めるための微調整MLLMに最適である。
論文参考訳（メタデータ） (2024-06-13T13:51:59Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
What Evidence Do Language Models Find Convincing? [94.90663008214918]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文参考訳（メタデータ） (2024-02-19T02:15:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。