Fugu-MT 論文翻訳(概要): First, do no harm: Breaking suicidogenic echo chambers in media recommendation

論文の概要: First, do no harm: Breaking suicidogenic echo chambers in media recommendation

arxiv url: http://arxiv.org/abs/2605.25258v1
Date: Sun, 24 May 2026 21:21:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:19.048917
Title: First, do no harm: Breaking suicidogenic echo chambers in media recommendation
Title（参考訳）: 第一に、害はない:メディアレコメンデーションにおける自殺性エコー室の破壊
Authors: Alberto Díaz-Álvarez, Raúl Lara-Cabrera, Fernando Ortega-Requena, Víctor Ramos-Osuna,
Abstract要約: RankAidは、予測関連性と共に臨床安全性を優先する再分類手法である。リスクのある項目を解析し、ユーザの現在の脆弱性レベルに応じて治療内容を高める。シミュレーションにより,危機ピーク時に有害なコンテンツの推薦をブロックできることが示唆された。
参考スコア（独自算出の注目度）: 39.146761527401424
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recommender systems generally optimises user engagement, but this approach is dangerous in mental health contexts. When vulnerable users show signs of suicidal ideation, standard algorithms often trap them in echo chambers of harmful content, worsening their psychological state. In response, we introduce RankAid, a re-ranking method that prioritises clinical safety alongside predictive relevance. It works as an add-on layer to existing models: it penalises risky items and boosts therapeutic content depending on the user's current level of vulnerability. We evaluated this approach using the MovieLens 1M dataset, where items were semantically annotated for clinical risk and therapeutic value using large language models. Our simulations show that our algorithm successfully blocks the recommendation of harmful content during crisis peaks, actively reshaping the feed to support emotional de-escalation. Furthermore, this safety intervention only causes a controlled, acceptable drop in standard accuracy metrics like NDCG. By using asymmetric hyperparameters, RankAid also gives system administrators the flexibility to tune the severity of the intervention based on specific clinical guidelines.
Abstract（参考訳）: レコメンダシステムは一般的にユーザーのエンゲージメントを最適化するが、メンタルヘルスの文脈ではこのアプローチは危険である。脆弱性のあるユーザーが自殺的思考の兆候を示すと、標準的なアルゴリズムは有害なコンテンツのエコーチャンバーに閉じ込められ、心理的状態が悪化する。そこで本研究では,予測関連性とともに臨床安全性を優先するランクエイド手法を提案する。既存のモデルのアドオン層として機能し、リスクの高い項目を解析し、ユーザの現在の脆弱性レベルに応じて治療内容を高める。提案手法をMovieLens 1Mデータセットを用いて評価し,大言語モデルを用いた臨床リスクと治療価値について意味論的にアノテートした。シミュレーションの結果,我々のアルゴリズムは,危機時の有害なコンテンツの推薦をブロックし,感情的脱エスカレーションを支援するためにフィードを積極的に再構築することに成功した。さらに、この安全介入は、NDCGのような標準精度メトリクスが制御され許容される程度に低下するだけである。非対称なハイパーパラメーターを使用することで、RandAidはシステム管理者に対して、特定の臨床ガイドラインに基づいて介入の重症度を調整できる柔軟性を提供する。

関連論文リスト

CORE-Acu: Structured Reasoning Traces and Knowledge Graph Safety Verification for Acupuncture Clinical Decision Support [13.638619580181894]
臨床診断支援のための神経シンボリック・フレームワークであるCORE-Acuを提案する。 CORE-AcuはStructured Chain-of-Thought(S-CoT)と知識グラフ(KG)の安全性検証を統合している。 1000件の実験は、CORE-Acuの優れた実体の忠実さと推論品質を実証している。
論文参考訳（メタデータ） (2026-03-09T12:42:23Z)
Beyond Accuracy: Risk-Sensitive Evaluation of Hallucinated Medical Advice [0.1609950046042424]
本稿では,リスクを負う言語の存在によって幻覚を定量化するリスク感受性評価フレームワークを提案する。安全ストレステストとして設計された患者対応プロンプトを用いて,3つの言語モデルに本フレームワークを適用した。
論文参考訳（メタデータ） (2026-02-07T02:25:44Z)
Overalignment in Frontier LLMs: An Empirical Study of Sycophantic Behaviour in Healthcare [1.9010852820067994]
モデル不安定性("Confusability")を考慮してアライメントバイアスを分離する新しい尺度であるAdjusted Sycophancy Scoreを提案する。以上の結果から, ベンチマーク性能は臨床信頼性の指標ではないことが示唆され, 簡易な推論構造は, 専門家主導の薬効に対して優れた堅牢性をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2026-01-26T10:21:34Z)
Health-ORSC-Bench: A Benchmark for Measuring Over-Refusal and Safety Completion in Health Context [82.32380418146656]
Health-ORSC-Benchは、医療におけるtextbfOver-Refusalと textbfSafe Completionの品質を測定するために設計された最初の大規模ベンチマークである。私たちのフレームワークは、人間の検証を備えた自動パイプラインを使用して、さまざまなレベルの意図の曖昧さでモデルをテストします。 Health-ORSC-Benchは、次世代の医療AIアシスタントを調整するための厳格な標準を提供する。
論文参考訳（メタデータ） (2026-01-25T01:28:52Z)
Between Help and Harm: An Evaluation of Mental Health Crisis Handling by LLMs [6.0460961868478975]
臨床的にインフォームドされた6つのメンタルヘルス危機カテゴリーの統一分類を導入する。我々は、危機タイプを分類し、安全で適切な応答を生成する能力のために、3つの最先端のLCMをベンチマークする。間接的または曖昧なリスク信号の処理におけるシステム的弱点、定式的および不完全なデフォルト応答への依存、およびユーザコンテキストとの頻繁な不一致を識別する。
論文参考訳（メタデータ） (2025-09-29T14:42:23Z)
Reinforcement Learning enhanced Online Adaptive Clinical Decision Support via Digital Twin powered Policy and Treatment Effect optimized Reward [3.3025649517524793]
本稿では、強化学習がポリシーを提供し、患者デジタルツインが環境を提供し、治療効果が報酬を定義するオンライン適応ツールを提案する。人工臨床シミュレータの実験では、レイテンシの低下、スループットの安定、安全度の高いクエリ率の低下、標準値ベースラインに対するリターンの改善などが示されている。
論文参考訳（メタデータ） (2025-08-24T04:51:22Z)
Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文参考訳（メタデータ） (2025-08-17T23:46:36Z)
Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。 STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文参考訳（メタデータ） (2025-05-22T18:05:16Z)
PipAttack: Poisoning Federated Recommender Systems forManipulating Item Promotion [58.870444954499014]
一般的な実践は、分散化された連邦学習パラダイムの下でレコメンデーターシステムをサブスクライブすることである。本稿では,対象項目の促進のために,フェデレートされたレコメンデータシステムをバックドア化するための体系的アプローチを提案する。
論文参考訳（メタデータ） (2021-10-21T06:48:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。