論文の概要: Just as Humans Need Vaccines, So Do Models: Model Immunization to Combat Falsehoods
- arxiv url: http://arxiv.org/abs/2505.17870v1
- Date: Fri, 23 May 2025 13:20:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.100912
- Title: Just as Humans Need Vaccines, So Do Models: Model Immunization to Combat Falsehoods
- Title(参考訳): 人間にはワクチンが必要なのと同じように、そうするモデル
- Authors: Shaina Raza, Rizwan Qureshi, Marcelo Lotif, Aman Chadha, Deval Pandya, Christos Emmanouilidis,
- Abstract要約: 生成AIモデルは、トレーニングコーパスに存在する偽情報を学習し、再現することが多い。
本稿は、AIモデルは、偽情報に対する"ワクチン"として明確にラベル付けされた偽装の、小さくて隔離されたセットで微調整されるべきである、と論じる。
- 参考スコア(独自算出の注目度): 4.6697477379475005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI models often learn and reproduce false information present in their training corpora. This position paper argues that, analogous to biological immunization, where controlled exposure to a weakened pathogen builds immunity, AI models should be fine tuned on small, quarantined sets of explicitly labeled falsehoods as a "vaccine" against misinformation. These curated false examples are periodically injected during finetuning, strengthening the model ability to recognize and reject misleading claims while preserving accuracy on truthful inputs. An illustrative case study shows that immunized models generate substantially less misinformation than baselines. To our knowledge, this is the first training framework that treats fact checked falsehoods themselves as a supervised vaccine, rather than relying on input perturbations or generic human feedback signals, to harden models against future misinformation. We also outline ethical safeguards and governance controls to ensure the safe use of false data. Model immunization offers a proactive paradigm for aligning AI systems with factuality.
- Abstract(参考訳): 生成AIモデルは、トレーニングコーパスに存在する偽情報を学習し、再現することが多い。
このポジションペーパーは、弱体化病原体への制御された曝露が免疫を発生させる生物学的免疫と類似して、AIモデルは、偽情報に対する「ワクチン」として、明確にラベル付けされた小さな、隔離された偽装のセットに微調整されるべきである、と論じている。
これらのキュレートされた偽の例は、微調整中に定期的に注入され、真理な入力の正確さを維持しながら、誤解を招くクレームを認識し、否定するモデル能力を強化する。
実証的なケーススタディでは、免疫モデルがベースラインよりも誤情報が少ないことが示されている。
我々の知る限り、これは事実検査された偽名自身を、入力の摂動や一般的な人間のフィードバック信号に頼るのではなく、教師付きワクチンとして扱う最初のトレーニングフレームワークであり、将来の誤報に対するモデルを強化する。
また、偽データの安全な使用を保証するための倫理的保護とガバナンスの制御についても概説する。
モデル免疫は、AIシステムを事実と整合させるための積極的なパラダイムを提供する。
関連論文リスト
- Immunogenicity Prediction with Dual Attention Enables Vaccine Target Selection [6.949493332885247]
我々はワクチンの免疫原性を予測するための新しい深層学習ソリューションであるVenusVaccineを紹介した。
また、これまでに7000以上の抗原配列、構造、細菌、ウイルス、腫瘍からの免疫原性ラベルを含む、最も包括的な免疫原性データセットをコンパイルした。
私たちの研究はワクチン設計に有効なツールを提供し、将来の研究に有用なベンチマークを設定します。
論文 参考訳(メタデータ) (2024-10-03T16:33:35Z) - Missci: Reconstructing Fallacies in Misrepresented Science [84.32990746227385]
ソーシャルネットワーク上の健康関連の誤報は、意思決定の貧弱さと現実世界の危険につながる可能性がある。
ミスシは、誤った推論のための新しい議論理論モデルである。
大規模言語モデルの批判的推論能力をテストするためのデータセットとしてMissciを提案する。
論文 参考訳(メタデータ) (2024-06-05T12:11:10Z) - Nutrition Facts, Drug Facts, and Model Facts: Putting AI Ethics into
Practice in Gun Violence Research [0.0]
本稿では,モデルファクトテンプレートを提案し,精度と階層性を標準化され,最小限の複雑な値に分解する。
これまでに公表された2つのモデル、暴力リスク識別モデルと自殺リスク予測モデルにモデルファクトテンプレートを適用した。
論文 参考訳(メタデータ) (2024-02-14T16:19:09Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Raising the Cost of Malicious AI-Powered Image Editing [82.71990330465115]
本研究では,大規模な拡散モデルによる悪意ある画像編集のリスクを軽減するためのアプローチを提案する。
鍵となるアイデアは、イメージを免疫して、これらのモデルによる操作に抵抗するようにすることだ。
論文 参考訳(メタデータ) (2023-02-13T18:38:42Z) - Dense Feature Memory Augmented Transformers for COVID-19 Vaccination
Search Classification [60.49594822215981]
本稿では,新型コロナウイルスワクチン関連検索クエリの分類モデルを提案する。
本稿では,モデルが対応可能なメモリトークンとして,高密度特徴を考慮した新しい手法を提案する。
この新しいモデリング手法により,Vaccine Search Insights (VSI) タスクを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-12-16T13:57:41Z) - MOVE: Effective and Harmless Ownership Verification via Embedded External Features [104.97541464349581]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
次に、メタ分類器をトレーニングして、モデルが被害者から盗まれたかどうかを判断します。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - Disentangled Learning of Stance and Aspect Topics for Vaccine Attitude
Detection in Social Media [40.61499595293957]
VADetと呼ばれるワクチンの姿勢検出のための新しい半教師付きアプローチを提案する。
VADetは、歪んだ姿勢とアスペクトトピックを学習することができ、スタンス検出とツイートクラスタリングの両方で、既存のアスペクトベースの感情分析モデルより優れています。
論文 参考訳(メタデータ) (2022-05-06T15:24:33Z) - Amnesiac Machine Learning [15.680008735220785]
最近制定された一般データ保護規則は、欧州連合の居住者に関するデータを持つデータ保有者に影響を与えている。
モデルは、モデル反転攻撃のような情報漏洩攻撃に対して脆弱である。
我々は、モデル所有者が規制に準拠しながら、そのような攻撃から身を守ることのできる、UnlearningとAmnesiac Unlearningの2つのデータ除去方法を提案する。
論文 参考訳(メタデータ) (2020-10-21T13:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。