論文の概要: HRIPBench: Benchmarking LLMs in Harm Reduction Information Provision to Support People Who Use Drugs
- arxiv url: http://arxiv.org/abs/2507.21815v1
- Date: Tue, 29 Jul 2025 13:47:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.369807
- Title: HRIPBench: Benchmarking LLMs in Harm Reduction Information Provision to Support People Who Use Drugs
- Title(参考訳): HRIPBench:薬物使用者支援のためのハーム低減情報提供におけるLCMのベンチマーク
- Authors: Kaixuan Wang, Chenxin Diao, Jason T. Jacques, Zhongliang Guo, Shuai Zhao,
- Abstract要約: 公衆衛生戦略としてのハーム削減は、健康結果の改善と安全リスクの低減を目的としている。
いくつかの大きな言語モデル(LLM)は、薬物を使用する人々の情報ニーズに対処することを約束して、十分なレベルの医療知識を実証している。
LLMの精度と安全性のリスクを評価するためのベンチマークであるHRIPBenchを紹介する。
- 参考スコア(独自算出の注目度): 10.742308642827227
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Millions of individuals' well-being are challenged by the harms of substance use. Harm reduction as a public health strategy is designed to improve their health outcomes and reduce safety risks. Some large language models (LLMs) have demonstrated a decent level of medical knowledge, promising to address the information needs of people who use drugs (PWUD). However, their performance in relevant tasks remains largely unexplored. We introduce HRIPBench, a benchmark designed to evaluate LLM's accuracy and safety risks in harm reduction information provision. The benchmark dataset HRIP-Basic has 2,160 question-answer-evidence pairs. The scope covers three tasks: checking safety boundaries, providing quantitative values, and inferring polysubstance use risks. We build the Instruction and RAG schemes to evaluate model behaviours based on their inherent knowledge and the integration of domain knowledge. Our results indicate that state-of-the-art LLMs still struggle to provide accurate harm reduction information, and sometimes, carry out severe safety risks to PWUD. The use of LLMs in harm reduction contexts should be cautiously constrained to avoid inducing negative health outcomes. WARNING: This paper contains illicit content that potentially induces harms.
- Abstract(参考訳): 何百万人もの個人の幸福は、物質使用の害に悩まされている。
公衆衛生戦略としてのハーム削減は、彼らの健康結果を改善し、安全リスクを減らすために設計されている。
いくつかの大規模言語モデル(LLM)は、薬物使用者(PWUD)の情報ニーズに対応するために、十分なレベルの医療知識を実証している。
しかし、関連するタスクにおけるそれらのパフォーマンスはほとんど解明されていない。
LLMの精度と安全性のリスクを評価するためのベンチマークであるHRIPBenchを紹介する。
HRIP-Basicのベンチマークデータセットには2,160の質問-回答-証拠ペアがある。
このスコープは、安全性境界のチェック、定量値の提供、多物質使用リスクの推測という3つのタスクをカバーする。
我々は、その固有の知識とドメイン知識の統合に基づいてモデル行動を評価するために、インストラクションとRAGスキームを構築します。
以上の結果から,現状のLLMは正確な害軽減情報の提供に苦慮し,時にはPWUDに深刻な安全リスクを負うことが示唆された。
害軽減の文脈におけるLSMの使用は、負の健康結果の誘発を避けるために慎重に制限されるべきである。
WARNING: 本論文は害をもたらす可能性のある違法な内容を含む。
関連論文リスト
- Beyond Reactive Safety: Risk-Aware LLM Alignment via Long-Horizon Simulation [69.63626052852153]
本稿では,モデル生成によるアドバイスが社会システムを通じてどのように伝播するかを示す概念実証フレームワークを提案する。
また、100の間接的な害シナリオのデータセットを導入し、害のないユーザプロンプトから有害で非有害な結果を予測するモデルの能力をテストする。
論文 参考訳(メタデータ) (2025-06-26T02:28:58Z) - Refining Positive and Toxic Samples for Dual Safety Self-Alignment of LLMs with Minimal Human Interventions [17.485655062129965]
近年のAIエージェントは、大規模言語モデル(LLM)の出力を人間の意図で調整するために、命令チューニングと強化学習に依存している。
PT-ALIGN(PT-ALIGN)は,ヒトの健康管理を最小化するための安全自己調整手法である。
PT-ALIGNの安全性向上に有効であると同時に,有用性と有用性の両面を両立させながら,9つのオープンソース LLM 実験を行った。
論文 参考訳(メタデータ) (2025-02-08T09:54:47Z) - Beyond the Safety Bundle: Auditing the Helpful and Harmless Dataset [4.522849055040843]
この研究は、Helpful and Harmless データセットを Anthropic で監査した。
本研究は,大規模言語モデルにおける安全性軽減のための,よりニュアンスで文脈に敏感なアプローチの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-11-12T23:43:20Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Risk and Response in Large Language Models: Evaluating Key Threat Categories [6.436286493151731]
本稿では,Large Language Models (LLMs) におけるリスクアセスメントのプレッシャーについて考察する。
人為的レッドチームデータセットを利用することで、情報ハザード、悪用、差別/憎しみのあるコンテンツなど、主要なリスクカテゴリを分析します。
以上の結果から,LSMは情報ハザードを有害とみなす傾向があることが示唆された。
論文 参考訳(メタデータ) (2024-03-22T06:46:40Z) - MedSafetyBench: Evaluating and Improving the Medical Safety of Large Language Models [32.35118292932457]
まず,米国医学会の医療倫理原則に基づいて,大規模言語モデル(LLM)における医療安全の概念を定義した。
次に、この理解を活用して、LSMの医療安全を測定するために設計された最初のベンチマークデータセットであるMedSafetyBenchを導入します。
以上の結果から,医療用LLMは医療安全基準に適合せず,MedSafetyBenchを用いた微調整により医療安全を向上し,医療性能の維持が図られている。
論文 参考訳(メタデータ) (2024-03-06T14:34:07Z) - The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning [87.1610740406279]
ホワイトハウス人工知能に関する大統領令は、生物、サイバー、化学兵器の開発において悪意あるアクターに力を与える大きな言語モデル(LLM)のリスクを強調している。
現在の評価は非公開であり、リスク軽減のさらなる研究を妨げている。
Weapons of Mass Destruction Proxyベンチマークを公開しています。
論文 参考訳(メタデータ) (2024-03-05T18:59:35Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。