論文の概要: DiDOTS: Knowledge Distillation from Large-Language-Models for Dementia Obfuscation in Transcribed Speech
- arxiv url: http://arxiv.org/abs/2410.04188v1
- Date: Sat, 5 Oct 2024 15:07:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 13:41:32.270931
- Title: DiDOTS: Knowledge Distillation from Large-Language-Models for Dementia Obfuscation in Transcribed Speech
- Title(参考訳): DiDOTS: 転写音声における認知症難読化のための大規模言語モデルからの知識蒸留
- Authors: Dominika Woszczyk, Soteris Demetriou,
- Abstract要約: 認知症は、世界中の何千万人もの人に影響を及ぼす敏感な神経認知障害である。
認知症分類の最近の進歩は、敵が影響を受けた個人のプライバシーを侵害することを可能にしている。
既存の難読化法は認知症には適用されていない。
- 参考スコア(独自算出の注目度): 3.3379026542599934
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Dementia is a sensitive neurocognitive disorder affecting tens of millions of people worldwide and its cases are expected to triple by 2050. Alarmingly, recent advancements in dementia classification make it possible for adversaries to violate affected individuals' privacy and infer their sensitive condition from speech transcriptions. Existing obfuscation methods in text have never been applied for dementia and depend on the availability of large labeled datasets which are challenging to collect for sensitive medical attributes. In this work, we bridge this research gap and tackle the above issues by leveraging Large-Language-Models (LLMs) with diverse prompt designs (zero-shot, few-shot, and knowledge-based) to obfuscate dementia in speech transcripts. Our evaluation shows that LLMs are more effective dementia obfuscators compared to competing methods. However, they have billions of parameters which renders them hard to train, store and share, and they are also fragile suffering from hallucination, refusal and contradiction effects among others. To further mitigate these, we propose a novel method, DiDOTS. DiDOTS distills knowledge from LLMs using a teacher-student paradigm and parameter-efficient fine-tuning. DiDOTS has one order of magnitude fewer parameters compared to its teacher LLM and can be fine-tuned using three orders of magnitude less parameters compared to full fine-tuning. Our evaluation shows that compared to prior work DiDOTS retains the performance of LLMs achieving 1.3x and 2.2x improvement in privacy performance on two datasets, while humans rate it as better in preserving utility even when compared to state-of-the-art paraphrasing models.
- Abstract(参考訳): 認知症は世界中の何千万人もの人に影響を及ぼし、2050年までには3倍になると予想されている。
認知症分類の最近の進歩は、敵が影響を受けた個人のプライバシーを侵害し、音声の書き起こしからその繊細な状態を推測することを可能にする。
既存のテキストの難読化手法は認知症には適用されておらず、機密性の高い医療属性の収集が困難である大規模ラベル付きデータセットの可用性に依存している。
本研究では,この研究のギャップを埋め,Large-Language-Models (LLMs) を多種多様なプロンプトデザイン(ゼロショット,少数ショット,知識ベース)で活用し,認知症を音声書き起こしで難易度化することで,上記の課題に対処する。
以上の結果から,LSMは競合法に比べて認知症難治薬として有効であることが示唆された。
しかし、それらは何十億ものパラメータを持ち、訓練、保存、共有を困難にし、また幻覚、拒絶、矛盾する影響に苦しむ脆弱でもある。
さらにこれを緩和するために,新しい手法であるDiDOTSを提案する。
DiDOTSは、教師学生のパラダイムとパラメータ効率の良い微調整を用いて、LLMから知識を抽出する。
DiDOTSは教師のLLMに比べて1桁少ないパラメータを持ち、完全な微調整に比べて3桁少ないパラメータで微調整できる。
評価の結果、従来の作業と比較して、DDOTSは2つのデータセットのプライバシー性能を1.3倍、2.2倍改善したLCMの性能を維持している。
関連論文リスト
- LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Hallucination Detox: Sensitive Neuron Dropout (SeND) for Large Language Model Training [7.726825072908519]
本研究は,幻覚の緩和を目的としたトレーニングプロトコルであるSensitive Neuron Dropout (SeND)を紹介する。
さらに,従来のEigenScoreを2倍の速度で近似する,教師なし幻覚検出尺度であるEfficient EigenScore(EES)を開発した。
論文 参考訳(メタデータ) (2024-10-20T18:18:23Z) - Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。
1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。
近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文 参考訳(メタデータ) (2024-04-25T13:10:48Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Enhancing Small Medical Learners with Privacy-preserving Contextual Prompting [24.201549275369487]
本稿では,大規模言語モデルの専門知識を活用して,プライバシ制限シナリオ下での医療タスクにおけるSLM性能を向上させる手法を提案する。
具体的には、医療データからキーワードを抽出し、LLMに医療知識集約的なコンテキストを生成することで、患者のプライバシ問題を緩和する。
本手法は,3つの医療知識集約タスクにおいて,数ショットとフルトレーニングの双方において,パフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2023-05-22T05:14:38Z) - GPT-D: Inducing Dementia-related Linguistic Anomalies by Deliberate
Degradation of Artificial Neural Language Models [7.8430387435520625]
一般英語テキストで事前学習したTransformer DLモデル(GPT-2)を,人工劣化版(GPT-D)と組み合わせて提案する手法を提案する。
この手法は、広く使われている「Cookie Theft」画像記述タスクから得られたテキストデータに対する最先端のパフォーマンスにアプローチする。
本研究は, 生成型ニューラル言語モデルの内部動作, 生成する言語, 認知症が人間の発話や言語特性に与える影響について, より深く理解するためのステップである。
論文 参考訳(メタデータ) (2022-03-25T00:25:42Z) - Personalized One-Shot Lipreading for an ALS Patient [34.59007152584927]
単発例のみを用いてALS患者をリップレッドするパーソナライズされたネットワークを提案する。
変分に基づくドメイン適応手法は、実合成ドメインギャップを橋渡しするために用いられる。
本手法は, 患者に対する62.6%の方法と比較して, 83.2%の精度で高いトップ5の精度を実現している。
論文 参考訳(メタデータ) (2021-11-02T17:03:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。