論文の概要: The Colorful Future of LLMs: Evaluating and Improving LLMs as Emotional
Supporters for Queer Youth
- arxiv url: http://arxiv.org/abs/2402.11886v1
- Date: Mon, 19 Feb 2024 06:54:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 18:04:58.242555
- Title: The Colorful Future of LLMs: Evaluating and Improving LLMs as Emotional
Supporters for Queer Youth
- Title(参考訳): LLMのカラーフルフューチャー:キューアユースにおける感情支援者としてのLCMの評価と改善
- Authors: Shir Lissak, Nitay Calderon, Geva Shenkman, Yaakov Ophir, Eyal
Fruchter, Anat Brunstein Klomek and Roi Reichart
- Abstract要約: 本稿では,大規模言語モデルがクェーアに対する感情的支援に革命をもたらす可能性を探究することを目的とする。
我々は,心理学的基準と専門家の入力にインスパイアされた,新しい10質問尺度を開発した。
LLMの反応は支持的であり、包括的であり、人間を誇張している。
しかし、それらは一般的なものであり、共感的でない傾向があり、パーソナライゼーションが欠如しているため、信頼できない、潜在的に有害なアドバイスをもたらす。
- 参考スコア(独自算出の注目度): 14.751539420563752
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Queer youth face increased mental health risks, such as depression, anxiety,
and suicidal ideation. Hindered by negative stigma, they often avoid seeking
help and rely on online resources, which may provide incompatible information.
Although access to a supportive environment and reliable information is
invaluable, many queer youth worldwide have no access to such support. However,
this could soon change due to the rapid adoption of Large Language Models
(LLMs) such as ChatGPT. This paper aims to comprehensively explore the
potential of LLMs to revolutionize emotional support for queers. To this end,
we conduct a qualitative and quantitative analysis of LLM's interactions with
queer-related content. To evaluate response quality, we develop a novel
ten-question scale that is inspired by psychological standards and expert
input. We apply this scale to score several LLMs and human comments to posts
where queer youth seek advice and share experiences. We find that LLM responses
are supportive and inclusive, outscoring humans. However, they tend to be
generic, not empathetic enough, and lack personalization, resulting in
nonreliable and potentially harmful advice. We discuss these challenges,
demonstrate that a dedicated prompt can improve the performance, and propose a
blueprint of an LLM-supporter that actively (but sensitively) seeks user
context to provide personalized, empathetic, and reliable responses. Our
annotated dataset is available for further research.
- Abstract(参考訳): キーアの若者は抑うつ、不安、自殺イデオロギーなどの精神的健康リスクが高まる。
否定的なスティグマに妨げられ、しばしば助けを求めるのを避け、互換性のない情報を提供するオンラインリソースに頼る。
支援的な環境と信頼できる情報へのアクセスは貴重なものであるが、世界中の多くの若者はそのような支援にアクセスできない。
しかし、これはChatGPTのような大規模言語モデル(LLM)の急速な採用によってすぐに変わる可能性がある。
本稿では,LCMがクイアに対する感情的支援に革命をもたらす可能性を包括的に探求することを目的とする。
そこで我々は,LLMとクイア関連コンテンツとの相互作用を質的,定量的に分析する。
反応の質を評価するために,心理学的基準と専門家のインプットに触発された新しい10質問尺度を開発した。
この尺度を適用して、いくつかのllmと人間のコメントを、queer youthがアドバイスを求め、経験を共有する投稿に適用する。
LLMの反応は支持的であり、包括的であり、人間を誇張している。
しかし、それらは汎用的で共感力に乏しく、パーソナライゼーションに欠ける傾向があり、信頼できない、潜在的に有害なアドバイスをもたらす。
我々は,これらの課題について議論し,専用プロンプトがパフォーマンスを向上させることを示すとともに,ユーザコンテキストを積極的に(しかし敏感に)求め,パーソナライズされ,共感的で,信頼性の高い応答を提供するllmサポートの青写真を提案する。
注釈付きデータセットは、さらなる研究のために利用可能です。
関連論文リスト
- Large Language Models are Capable of Offering Cognitive Reappraisal, if Guided [38.11184388388781]
大規模言語モデル(LLM)は感情的サポートの新しい機会を提供する。
この研究は、認知的再評価に取り組み、第一歩を踏み出す。
我々は、認知的再評価反応を生成するLLMのゼロショット能力について、第一種専門家による評価を行う。
論文 参考訳(メタデータ) (2024-04-01T17:56:30Z) - A Novel Nuanced Conversation Evaluation Framework for Large Language Models in Mental Health [42.711913023646915]
大規模言語モデル(LLM)のニュアンス会話能力を評価するための新しい枠組みを提案する。
そこで我々は,心理療法の会話分析文献を用いた文献から開発された,一連の定量的指標を開発した。
GPTモデルやLlamaモデルを含むいくつかの人気のあるフロンティアLCMを、検証されたメンタルヘルスデータセットを通じて評価するために、当社のフレームワークを使用します。
論文 参考訳(メタデータ) (2024-03-08T23:46:37Z) - Can Large Language Models be Good Emotional Supporter? Mitigating
Preference Bias on Emotional Support Conversation [29.98248779453701]
この研究はESConv上での大規模言語モデル(LLM)の結果を分析した。
特定の戦略に対する高い嗜好を示すことは、効果的な感情的支援を妨げている。
その結果,(1) 特定の戦略に対する嗜好の低さは情緒的支援の進行を妨げること,(2) 外部援助は嗜好バイアスの軽減に役立つこと,(3) LLMだけでは感情的な支持者にはならないことが強調された。
論文 参考訳(メタデータ) (2024-02-20T18:21:32Z) - Know Your Audience: Do LLMs Adapt to Different Age and Education Levels? [21.302967282814784]
我々は、4つの最先端の大規模言語モデル(LLM)が生成する回答の可読性を評価する。
各年齢・教育集団の推奨理解レベルに対して生成した回答の可読性スコアを比較した。
我々の結果は、LLMの回答は、より理解しやすいように、意図した聴衆に適応する必要があることを示唆している。
論文 参考訳(メタデータ) (2023-12-04T17:19:53Z) - You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。
17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。
その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文 参考訳(メタデータ) (2023-11-16T09:50:53Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Revisiting the Reliability of Psychological Scales on Large Language
Models [66.31055885857062]
本研究では,人格評価を大規模言語モデル(LLM)に適用する際の信頼性について検討する。
LLMのパーソナライズに光を当てることで、この分野での今後の探索の道を開くことに努める。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Encouraging Divergent Thinking in Large Language Models through
Multi-Agent Debate [56.23037393834715]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。