Fugu-MT 論文翻訳(概要): WellDunn: On the Robustness and Explainability of Language Models and Large Language Models in Identifying Wellness Dimensions

論文の概要: WellDunn: On the Robustness and Explainability of Language Models and Large Language Models in Identifying Wellness Dimensions

arxiv url: http://arxiv.org/abs/2406.12058v1
Date: Mon, 17 Jun 2024 19:50:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 23:57:20.012557
Title: WellDunn: On the Robustness and Explainability of Language Models and Large Language Models in Identifying Wellness Dimensions
Title（参考訳）: WellDunn: ウェルネス次元の同定における言語モデルと大規模言語モデルのロバスト性と説明可能性について
Authors: Seyedali Mohammadi, Edward Raff, Jinendra Malekar, Vedant Palit, Francis Ferraro, Manas Gaur,
Abstract要約: 言語モデル (LM) は, 予後のリスクを高めることで, 臨床実践におけるモデルの有用性の十分なリトマステストにはならない, メンタルヘルスの分野で提案されている。ウェルネス次元(WD)の同定におけるLMの妥当性と説明性に着目した評価設計を提案する。 LM/LLMの4つの驚くべき結果が明らかになった。
参考スコア（独自算出の注目度）: 46.60244609728416
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language Models (LMs) are being proposed for mental health applications where the heightened risk of adverse outcomes means predictive performance may not be a sufficient litmus test of a model's utility in clinical practice. A model that can be trusted for practice should have a correspondence between explanation and clinical determination, yet no prior research has examined the attention fidelity of these models and their effect on ground truth explanations. We introduce an evaluation design that focuses on the robustness and explainability of LMs in identifying Wellness Dimensions (WD). We focus on two mental health and well-being datasets: (a) Multi-label Classification-based MultiWD, and (b) WellXplain for evaluating attention mechanism veracity against expert-labeled explanations. The labels are based on Halbert Dunn's theory of wellness, which gives grounding to our evaluation. We reveal four surprising results about LMs/LLMs: (1) Despite their human-like capabilities, GPT-3.5/4 lag behind RoBERTa, and MedAlpaca, a fine-tuned LLM fails to deliver any remarkable improvements in performance or explanations. (2) Re-examining LMs' predictions based on a confidence-oriented loss function reveals a significant performance drop. (3) Across all LMs/LLMs, the alignment between attention and explanations remains low, with LLMs scoring a dismal 0.0. (4) Most mental health-specific LMs/LLMs overlook domain-specific knowledge and undervalue explanations, causing these discrepancies. This study highlights the need for further research into their consistency and explanations in mental health and well-being.
Abstract（参考訳）: 言語モデル (LM) は, 予後のリスクを高めることで, 臨床実践におけるモデルの有用性の十分なリトマステストにはならない, メンタルヘルスの分野で提案されている。実践に信頼できるモデルは、説明と臨床的決定の対応性を持つべきであるが、これらのモデルの注意力と、それらの基礎的真理的説明への影響について、事前の研究は行われていない。本稿では,ウェルネス次元(WD)の同定におけるLMの堅牢性と説明性に着目した評価設計を提案する。 2つのメンタルヘルスと幸福なデータセットに焦点を当てます。 (a)多ラベル分類に基づくMultiWD及び b) 専門家による説明に対する注意機構の妥当性を評価するためのWellXplain ラベルはハルベルト・ダンのウェルネスの理論に基づいている。 1)人間のような能力にもかかわらず、RoBERTaに遅れてGPT-3.5/4ラグ、そしてMedAlpacaでは、微調整のLDMでは、パフォーマンスや説明に顕著な改善が得られなかった。 2)信頼性指向の損失関数に基づくLMの予測を再検討した結果,性能低下が顕著であった。 (3) すべてのLM/LLMにおいて, 注意と説明の整合性は低く, LLMは0.0。 (4)ほとんどの精神保健専門のLM/LLMは、ドメイン固有の知識や価値の低い説明を見落とし、これらの相違の原因となった。この研究は、精神保健と健康における一貫性と説明について、さらなる研究の必要性を強調している。

関連論文リスト

A Gold Standard Dataset and Evaluation Framework for Depression Detection and Explanation in Social Media using LLMs [0.0]
オンラインソーシャルメディア投稿からうつ病の早期発見は、タイムリーなメンタルヘルス介入を提供するという約束を掲げている。抑うつ的スパンをラベル付けした1017のソーシャルメディア投稿を,12の抑うつ症状カテゴリにマッピングし,高品質で専門家による注釈付きデータセットを提示する。
論文参考訳（メタデータ） (2025-07-26T10:01:55Z)
DeVisE: Behavioral Testing of Medical Large Language Models [14.832083455439749]
DeVisEは、きめ細かい臨床的理解を求めるための行動テストフレームワークである。我々はMIMIC-IVからICU排出音符のデータセットを構築した。汎用型および医療用微調整型にまたがる5種類のLSMについて検討した。
論文参考訳（メタデータ） (2025-06-18T10:42:22Z)
Aligned Probing: Relating Toxic Behavior and Model Internals [66.49887503194101]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文参考訳（メタデータ） (2025-03-17T17:23:50Z)
Cognitive-Mental-LLM: Evaluating Reasoning in Large Language Models for Mental Health Prediction via Online Text [0.0]
本研究では,Reddit から得られた複数のメンタルヘルスデータセットの分類精度を向上させるため,構造化推論手法-Chain-of-Thought (CoT), Self-Consistency (SC-CoT), Tree-of-Thought (ToT) の評価を行った。我々は,Zero-shot CoTやFew-shot CoTといった推論駆動型プロンプト戦略を,Ba balanced Accuracy,F1 score,Sensitivity/Specificityといった重要なパフォーマンス指標を用いて分析する。以上の結果から,特に複雑な場合において,推論手法により直接予測よりも分類性能が向上することが示唆された。
論文参考訳（メタデータ） (2025-03-13T06:42:37Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
HuDEx: Integrating Hallucination Detection and Explainability for Enhancing the Reliability of LLM responses [0.12499537119440242]
本稿では,HuDExと命名された幻覚検出モデルについて説明する。提案モデルでは,検出を説明と統合する新たなアプローチを提供し,ユーザとLLM自体がエラーを理解し,低減することができる。
論文参考訳（メタデータ） (2025-02-12T04:17:02Z)
LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文参考訳（メタデータ） (2025-01-07T08:49:04Z)
Belief in the Machine: Investigating Epistemological Blind Spots of Language Models [51.63547465454027]
言語モデル(LM)は、医療、法律、ジャーナリズムといった分野において、信頼できる意思決定に不可欠である。本研究は,新しいデータセットであるKaBLEを用いて,GPT-4,Claude-3,Llama-3を含む現代のLMの能力を体系的に評価する。まず、LMは事実シナリオで86%の精度を達成するが、その性能は偽シナリオで著しく低下する。第二に、特にこれらの信念が事実データと矛盾する場合、LMは個人的信念を認識し、肯定するのに苦労する。
論文参考訳（メタデータ） (2024-10-28T16:38:20Z)
MentalGLM Series: Explainable Large Language Models for Mental Health Analysis on Chinese Social Media [31.752563319585196]
ブラックボックスモデルはタスクを切り替えるときに柔軟性がなく、その結果は説明に欠ける。大きな言語モデル(LLM)の台頭とともに、その柔軟性はこの分野に新しいアプローチを導入した。本稿では,9Kサンプルからなる中国初のマルチタスク・ソーシャル・メディア解釈型メンタルヘルス・インストラクション・データセットを提案する。また,中国ソーシャルメディアをターゲットとしたメンタルヘルス分析を目的とした,初のオープンソースLCMであるMentalGLMシリーズモデルを提案する。
論文参考訳（メタデータ） (2024-10-14T09:29:27Z)
SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文参考訳（メタデータ） (2024-07-03T11:02:12Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文参考訳（メタデータ） (2024-04-22T04:49:22Z)
Large Language Models in Medical Term Classification and Unexpected Misalignment Between Response and Reasoning [28.355000184014084]
本研究は, 軽度認知障害 (MCI) 患者を退院サマリーから識別する, 最先端の大規模言語モデル (LLMs) の有効性を評価するものである。データは、モデルの微調整と評価のために、トレーニング、検証、テストセットに7:2:1の比率で分割された。 FalconやLLaMA 2のようなオープンソースのモデルは高い精度を達成したが、説明的推論に欠けていた。
論文参考訳（メタデータ） (2023-12-19T17:36:48Z)
Language Models Hallucinate, but May Excel at Fact Verification [89.0833981569957]
大規模言語モデル (LLM) はしばしば「ハロシン化 (hallucinate)」し、結果として非実効出力となる。 GPT-3.5でさえ、実際の出力は25%以下である。これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
論文参考訳（メタデータ） (2023-10-23T04:39:01Z)
MentaLLaMA: Interpretable Mental Health Analysis on Social Media with Large Language Models [28.62967557368565]
ソーシャルメディア上に,最初のマルチタスクおよびマルチソース解釈可能なメンタルヘルスインストラクションデータセットを構築した。専門家が作成した数発のプロンプトとラベルを収集し,ChatGPTをプロンプトし,その応答から説明を得る。 IMHIデータセットとLLaMA2ファンデーションモデルに基づいて、メンタルヘルス分析のための最初のオープンソースLLMシリーズであるMentalLLaMAを訓練する。
論文参考訳（メタデータ） (2023-09-24T06:46:08Z)
Navigating the Grey Area: How Expressions of Uncertainty and Overconfidence Affect Language Models [74.07684768317705]
LMはプロンプトにおける確実性のマーカーに非常に敏感であり、アクーは80%以上変化している。その結果,高い確実性の表現は低い表現に比べて精度が低下し,事実動詞が性能を損なうのに対して,明らかな表現はパフォーマンスに寄与することがわかった。これらの関連性は、LMが真に不確実性を反映するのではなく、観察された言語の使用に基づいていることを示唆している。
論文参考訳（メタデータ） (2023-02-26T23:46:29Z)
Explainability of Traditional and Deep Learning Models on Longitudinal Healthcare Records [0.0]
モデルと様々な説明可能性法の比較は十分に研究されていないため、説明可能性の厳密な評価は欠落することが多い。我々の研究は、伝統的(XGBoost)と深層学習(LSTM with Attention)のモデル間の、グローバルおよび個人レベルの説明可能性のパフォーマンスを初めて評価した1つです。
論文参考訳（メタデータ） (2022-11-22T04:39:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。