論文の概要: Prompt Engineering a Schizophrenia Chatbot: Utilizing a Multi-Agent Approach for Enhanced Compliance with Prompt Instructions
- arxiv url: http://arxiv.org/abs/2410.12848v1
- Date: Thu, 10 Oct 2024 09:49:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-20 09:10:59.158380
- Title: Prompt Engineering a Schizophrenia Chatbot: Utilizing a Multi-Agent Approach for Enhanced Compliance with Prompt Instructions
- Title(参考訳): Prompt Engineering a Schizophrenia Chatbot: Multi-Agent Approach for Enhanced Compliance with Prompt Instructions
- Authors: Per Niklas Waaler, Musarrat Hussain, Igor Molchanov, Lars Ailo Bongo, Brita Elvevåg,
- Abstract要約: 統合失調症の患者は、しばしば認知障害を伴い、自分の状態について学ぶ能力を妨げることがある。
大規模言語モデル(LLM)は、トピックのメンタルヘルス情報をよりアクセシビリティとエンゲージメントを高める可能性を秘めているが、それらのブラックボックスの性質は倫理と安全に関する懸念を喚起する。
- 参考スコア(独自算出の注目度): 0.0699049312989311
- License:
- Abstract: Patients with schizophrenia often present with cognitive impairments that may hinder their ability to learn about their condition. These individuals could benefit greatly from education platforms that leverage the adaptability of Large Language Models (LLMs) such as GPT-4. While LLMs have the potential to make topical mental health information more accessible and engaging, their black-box nature raises concerns about ethics and safety. Prompting offers a way to produce semi-scripted chatbots with responses anchored in instructions and validated information, but prompt-engineered chatbots may drift from their intended identity as the conversation progresses. We propose a Critical Analysis Filter for achieving better control over chatbot behavior. In this system, a team of prompted LLM agents are prompt-engineered to critically analyze and refine the chatbot's response and deliver real-time feedback to the chatbot. To test this approach, we develop an informational schizophrenia chatbot and converse with it (with the filter deactivated) until it oversteps its scope. Once drift has been observed, AI-agents are used to automatically generate sample conversations in which the chatbot is being enticed to talk about out-of-bounds topics. We manually assign to each response a compliance score that quantifies the chatbot's compliance to its instructions; specifically the rules about accurately conveying sources and being transparent about limitations. Activating the Critical Analysis Filter resulted in an acceptable compliance score (>=2) in 67.0% of responses, compared to only 8.7% when the filter was deactivated. These results suggest that a self-reflection layer could enable LLMs to be used effectively and safely in mental health platforms, maintaining adaptability while reliably limiting their scope to appropriate use cases.
- Abstract(参考訳): 統合失調症の患者は、しばしば認知障害を伴い、自分の状態について学ぶ能力を妨げることがある。
これらの個人は、GPT-4のような大規模言語モデル(LLM)の適応性を活用する教育プラットフォームから大きな恩恵を受けることができる。
LLMは、トピックのメンタルヘルス情報をよりアクセシビリティとエンゲージメントを高める可能性を秘めているが、それらのブラックボックスの性質は、倫理と安全に関する懸念を喚起する。
Promptingは、指示に固定された応答と検証された情報を備えたセミスクリプトのチャットボットを生成する手段を提供するが、会話が進むにつれて、プロンプトエンジニアリングされたチャットボットは意図したアイデンティティから逸脱する可能性がある。
チャットボットの動作をよりよく制御するための臨界解析フィルタを提案する。
このシステムでは、LLMエージェントのチームが、チャットボットの応答を批判的に分析し、改善し、チャットボットにリアルタイムのフィードバックを提供するために、即座に設計される。
このアプローチをテストするために,情報統合失調症のチャットボットを開発し,そのスコープを超過するまで(フィルタを無効にして)それと会話する。
ドリフトが観測されると、AIエージェントを使用して、チャットボットが魅了されているサンプル会話を自動的に生成して、アウト・オブ・バウンドのトピックについて話す。
手動で各応答に、チャットボットの指示に対するコンプライアンスを定量化するコンプライアンススコアを割り当てます。
臨界分析フィルタの活性化は67.0%の回答で許容されるコンプライアンススコア(>=2)となり、フィルタが無効になったときの8.7%に留まった。
これらの結果から, 自己反射層は, 精神保健プラットフォームにおいてLLMを効果的かつ安全に利用し, 適応性を維持しつつ, 適切な利用範囲に確実に制限できる可能性が示唆された。
関連論文リスト
- Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。
従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。
本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文 参考訳(メタデータ) (2024-08-19T09:57:28Z) - LLM Roleplay: Simulating Human-Chatbot Interaction [52.03241266241294]
本研究では,人間とチャットボットの対話をシミュレートする多元多元対話を自動生成する,目標指向のペルソナに基づく手法を提案する。
本手法は,人間とチャットボットの対話を高い相違率でシミュレートすることができる。
論文 参考訳(メタデータ) (2024-07-04T14:49:46Z) - Can AI Relate: Testing Large Language Model Response for Mental Health Support [23.97212082563385]
大型言語モデル(LLM)はすでにニューヨーク・ラングーン、ダナ・ファーバー、NHSなどの病院システムで臨床使用のために試験されている。
精神医療の自動化に向けて, LLM 反応が有効かつ倫理的な道筋であるか否かを評価するための評価枠組みを開発する。
論文 参考訳(メタデータ) (2024-05-20T13:42:27Z) - Measuring and Controlling Instruction (In)Stability in Language Model Dialogs [72.38330196290119]
System-promptingは、言語モデルチャットボットをカスタマイズするツールで、特定の命令に従うことができる。
本稿では,仮説を検証し,セルフチャットによる命令安定性の評価を行うベンチマークを提案する。
我々は8ラウンドの会話で重要な指示ドリフトを明らかにした。
そこで本研究では,2つの強力なベースラインに対して良好に比較可能なsplit-softmaxという軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-02-13T20:10:29Z) - The Typing Cure: Experiences with Large Language Model Chatbots for
Mental Health Support [35.61580610996628]
重度の苦痛を経験する人々は、メンタルヘルス支援ツールとしてLarge Language Model (LLM)チャットボットをますます使います。
本研究は、世界規模で多様なバックグラウンドを持つ21人の個人に対するインタビューに基づいて、ユーザが独自のサポートロールを作成する方法を分析する。
我々は、治療的アライメントの概念を導入するか、精神的な健康状況に対する治療的価値とAIを連携させる。
論文 参考訳(メタデータ) (2024-01-25T18:08:53Z) - Supporting Student Decisions on Learning Recommendations: An LLM-Based
Chatbot with Knowledge Graph Contextualization for Conversational
Explainability and Mentoring [0.0]
本稿では,チャットボットを会話の仲介者として利用する手法を提案する。
グループチャットアプローチは、必要に応じて、あるいはチャットボットの予め定義されたタスクを超える場合に、学生と人間のメンターを結びつけるために開発された。
論文 参考訳(メタデータ) (2024-01-16T17:31:35Z) - In Generative AI we Trust: Can Chatbots Effectively Verify Political
Information? [39.58317527488534]
本稿では,2つの大規模言語モデル(LLM)ベースのチャットボットであるChatGPTとBing Chatの比較分析を行い,政治的情報の正確性を検出する。
AI監査手法を使用して、新型コロナウイルス、ロシアによるウクライナに対する攻撃、ホロコースト、気候変動、LGBTQ+関連の議論の5つのトピックについて、チャットボットが真、偽、および境界線をどう評価するかを調査する。
その結果, ベースライン精度評価タスクにおけるChatGPTの性能が向上し, 72%のケースが事前学習なしで言語平均で正しく評価された。
論文 参考訳(メタデータ) (2023-12-20T15:17:03Z) - AutoConv: Automatically Generating Information-seeking Conversations
with Large Language Models [74.10293412011455]
合成会話生成のためのAutoConvを提案する。
具体的には,会話生成問題を言語モデリングタスクとして定式化する。
我々は、情報探索プロセスの特徴を捉えるために、人間同士の会話でLLMを微調整する。
論文 参考訳(メタデータ) (2023-08-12T08:52:40Z) - LLM-empowered Chatbots for Psychiatrist and Patient Simulation:
Application and Evaluation [18.98839299694749]
この研究は、精神科医と患者シミュレーションのためのチャットボットにおけるChatGPTの可能性を探究することに焦点を当てている。
我々は精神科医と協力して目的を特定し、現実世界のシナリオと密接に整合する対話システムを反復的に開発する。
評価実験では、実際の精神科医や患者を雇い、チャットボットと診断会話を行い、評価のための評価を収集する。
論文 参考訳(メタデータ) (2023-05-23T02:25:01Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z) - Towards Data Distillation for End-to-end Spoken Conversational Question
Answering [65.124088336738]
音声対話型質問応答タスク(SCQA)を提案する。
SCQAは,音声発話とテキストコーパスから複雑な対話の流れをモデル化することを目的としている。
我々の主な目的は、音声とテキストの両方で会話的な質問に対処するQAシステムを構築することである。
論文 参考訳(メタデータ) (2020-10-18T05:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。