論文の概要: CounselReflect: A Toolkit for Auditing Mental-Health Dialogues
- arxiv url: http://arxiv.org/abs/2603.29429v1
- Date: Tue, 31 Mar 2026 08:35:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.358151
- Title: CounselReflect: A Toolkit for Auditing Mental-Health Dialogues
- Title(参考訳): CounselReflect:メンタルヘルス対話を聴取するためのツールキット
- Authors: Yahan Li, Chaohao Du, Zeyang Li, Christopher Chun Kuizon, Shupeng Cheng, Angel Hsing-Chi Hwang, Adam C. Frank, Ruishan Liu,
- Abstract要約: CounselReflectは、メンタルヘルスサポートの対話を監査するためのエンドツーエンドツールキットである。
セッションレベルの要約、ターンレベルのスコア、エビデンスリンクされた抜粋を備えた構造化された多次元レポートを提供する。
- 参考スコア(独自算出の注目度): 7.795471844983525
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Mental-health support is increasingly mediated by conversational systems (e.g., LLM-based tools), but users often lack structured ways to audit the quality and potential risks of the support they receive. We introduce CounselReflect, an end-to-end toolkit for auditing mental-health support dialogues. Rather than producing a single opaque quality score, CounselReflect provides structured, multi-dimensional reports with session-level summaries, turn-level scores, and evidence-linked excerpts to support transparent inspection. The system integrates two families of evaluation signals: (i) 12 model-based metrics produced by task-specific predictors, and (ii) rubric-based metrics that extend coverage via a literature-derived library (69 metrics) and user-defined custom metrics, operationalized with configurable LLM judges. CounselReflect is available as a web application, browser extension, and command-line interface (CLI), enabling use in real-time settings as well as at scale. Human evaluation includes a user study with 20 participants and an expert review with 6 mental-health professionals, suggesting that CounselReflect supports understandable, usable, and trustworthy auditing. A demo video and full source code are also provided.
- Abstract(参考訳): メンタルヘルスのサポートは、会話システム(LLMベースのツールなど)によってますます仲介されているが、ユーザは、受け取ったサポートの品質と潜在的なリスクを監査する構造的な方法が欠けていることが多い。
本稿では,メンタルヘルス支援対話を監査するためのエンドツーエンドツールキットであるCounselReflectを紹介する。
単一の不透明な品質スコアを生成するのではなく、CounselReflectは、透明な検査をサポートするために、セッションレベルの要約、ターンレベルのスコア、エビデンスリンクされた抜粋を備えた構造化された多次元レポートを提供する。
このシステムは、評価信号の2つのファミリーを統合する。
一 タスク特化予測者が生み出すモデルに基づく12の指標
(II) 文献由来のライブラリ(69のメトリクス)とユーザ定義のカスタムメトリクスを通じてカバレッジを拡張するルーブリックベースのメトリクス。
CounselReflectはWebアプリケーション、ブラウザエクステンション、コマンドラインインターフェース(CLI)として利用可能で、リアルタイム設定や大規模設定でも利用できる。
人間の評価には、20人の参加者によるユーザスタディと、6人のメンタルヘルス専門家による専門家レビューが含まれており、CounselReflectは理解しやすく、使いやすく、信頼できる監査をサポートすることを示唆している。
デモビデオとフルソースコードも提供されている。
関連論文リスト
- Ψ-Arena: Interactive Assessment and Optimization of LLM-based Psychological Counselors with Tripartite Feedback [51.26493826461026]
大規模言語モデル(LLM)の総合的評価と最適化のための対話型フレームワークであるPsi-Arenaを提案する。
アリーナは、心理学的にプロファイルされたNPCクライアントとの多段階対話を通じて現実世界のカウンセリングをシミュレートする現実的なアリーナ相互作用を特徴としている。
8つの最先端のLLM実験は、異なる実世界のシナリオと評価の観点で大きなパフォーマンス変化を示す。
論文 参考訳(メタデータ) (2025-05-06T08:22:51Z) - TRUST: An LLM-Based Dialogue System for Trauma Understanding and Structured Assessments [8.618945530676614]
本研究は,臨床症状を再現するLLMを用いた対話システムを開発することにより,メンタルヘルスアクセシビリティのギャップを埋めることを目的とする。
我々は、PTSDの正式な診断および評価を行うことができる協調LLMモジュールのフレームワークであるTRUSTを紹介する。
臨床医による時間と費用のかかる手動テストを置き換えるために,実生活の面接書に基づく患者シミュレーション手法を開発した。
論文 参考訳(メタデータ) (2025-04-30T17:58:06Z) - Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。
我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文 参考訳(メタデータ) (2025-03-28T14:08:40Z) - Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers: NeurIPS'24 Experiment [59.09144776166979]
大規模言語モデル(LLM)は、科学的ピアレビューを支援する上で有望だが議論の余地のあるツールである。
本研究は,論文提出を提出基準に適合させるツールとして,会議環境におけるLCMの有用性を評価する。
論文 参考訳(メタデータ) (2024-11-05T18:58:00Z) - Interactive Agents: Simulating Counselor-Client Psychological Counseling via Role-Playing LLM-to-LLM Interactions [12.455050661682051]
本稿では,カウンセラーとクライアントの相互作用をシミュレートするためのロールプレイングを通じて,2つの大きな言語モデル(LLM)を利用するフレームワークを提案する。
我々のフレームワークは2つのLCMで構成され、1つは特定の実生活のユーザープロファイルを備えたクライアントとして機能し、もう1つは経験豊富なカウンセラーとして機能する。
論文 参考訳(メタデータ) (2024-08-28T13:29:59Z) - Optimizing Psychological Counseling with Instruction-Tuned Large Language Models [9.19192059750618]
本稿では,心理カウンセリングにおける大規模言語モデル(LLM)の適用について検討する。
本稿では,共感的,関連性,支援的な応答を提供することで,特定のプロンプトを持つLLMを指導し,その性能を高める方法を提案する。
論文 参考訳(メタデータ) (2024-06-19T15:13:07Z) - Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - Conversational Health Agents: A Personalized LLM-Powered Agent Framework [1.4597673707346281]
会話型健康エージェント(英: Conversational Health Agents、CHA)は、援助や診断などの医療サービスを提供する対話型システムである。
我々は,対話エージェントがユーザの医療クエリに対してパーソナライズされた応答を生成するためのオープンソースのフレームワークであるopenCHAを提案する。
openCHAには、外部ソースから情報を集めるためのアクションを計画し実行するためのオーケストレータが含まれている。
論文 参考訳(メタデータ) (2023-10-03T18:54:10Z) - SupervisorBot: NLP-Annotated Real-Time Recommendations of Psychotherapy
Treatment Strategies with Deep Reinforcement Learning [13.173307471333619]
本稿では,心理療法セッション中のセラピストに対して,リアルタイムで治療戦略を提案するレコメンデーションシステムを提案する。
本システムでは,評価項目の深層埋め込みと患者が話している現在文との類似度スコアを計算し,治療結果を予測するターンレベル評価機構を用いる。
論文 参考訳(メタデータ) (2022-08-27T19:22:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。