論文の概要: What's Pulling the Strings? Evaluating Integrity and Attribution in AI Training and Inference through Concept Shift
- arxiv url: http://arxiv.org/abs/2504.21042v1
- Date: Mon, 28 Apr 2025 13:30:48 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-05-02 15:42:54.574547
- Title: What's Pulling the Strings? Evaluating Integrity and Attribution in AI Training and Inference through Concept Shift
- Title(参考訳): 文字列のプルとは何か?概念シフトによるAIトレーニングと推論における統合性と属性の評価
- Authors: Jiamin Chang, Haoyang Li, Hammond Pearce, Ruoxi Sun, Bo Li, Minhui Xue,
- Abstract要約: ConceptLensは、トレーニング済みのマルチモーダルモデルを利用して、整合性の脅威を特定する汎用フレームワークである。
悪意のあるコンセプトシフトによる隠蔽広告の生成など、バイアス注入に対する脆弱性を明らかにする。
生成的コンテンツにおける社会学的バイアスを明らかにし、社会学的文脈にまたがる格差を明らかにする。
- 参考スコア(独自算出の注目度): 33.83306492023009
- License:
- Abstract: The growing adoption of artificial intelligence (AI) has amplified concerns about trustworthiness, including integrity, privacy, robustness, and bias. To assess and attribute these threats, we propose ConceptLens, a generic framework that leverages pre-trained multimodal models to identify the root causes of integrity threats by analyzing Concept Shift in probing samples. ConceptLens demonstrates strong detection performance for vanilla data poisoning attacks and uncovers vulnerabilities to bias injection, such as the generation of covert advertisements through malicious concept shifts. It identifies privacy risks in unaltered but high-risk samples, filters them before training, and provides insights into model weaknesses arising from incomplete or imbalanced training data. Additionally, at the model level, it attributes concepts that the target model is overly dependent on, identifies misleading concepts, and explains how disrupting key concepts negatively impacts the model. Furthermore, it uncovers sociological biases in generative content, revealing disparities across sociological contexts. Strikingly, ConceptLens reveals how safe training and inference data can be unintentionally and easily exploited, potentially undermining safety alignment. Our study informs actionable insights to breed trust in AI systems, thereby speeding adoption and driving greater innovation.
- Abstract(参考訳): 人工知能(AI)の普及は、完全性、プライバシー、堅牢性、偏見など、信頼性に関する懸念を増幅している。
本研究では,これらの脅威を評価・評価するために,事前学習したマルチモーダルモデルを利用した一般フレームワークであるConceptLensを提案する。
ConceptLensは、バニラデータ中毒攻撃の強力な検出性能を示し、悪意のあるコンセプトシフトによる隠蔽広告の生成など、バイアス注入の脆弱性を明らかにする。
修正されていないがリスクの高いサンプルのプライバシーリスクを特定し、トレーニング前にフィルタリングし、不完全なトレーニングデータや不均衡なトレーニングデータから生じるモデルの弱点に関する洞察を提供する。
さらに、モデルレベルでは、ターゲットモデルが過度に依存しているという概念を特徴付け、誤解を招く概念を特定し、重要な概念の破壊がモデルに悪影響を及ぼすかを説明している。
さらに、生成コンテンツにおける社会学的バイアスを明らかにし、社会学的文脈にまたがる格差を明らかにする。
興味深いことに、ConceptLensは、安全トレーニングと推論データが意図せず簡単に利用でき、安全性を損なう可能性があることを明らかにしている。
我々の研究は、AIシステムへの信頼を育むために実行可能な洞察を与え、採用をスピードアップし、イノベーションを加速させる。
関連論文リスト
- On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [49.60774626839712]
マルチモーダル生成モデルは 彼らの公正さ、信頼性、そして誤用の可能性について 批判的な議論を呼んだ
組込み空間における摂動に対する応答を通じてモデルの信頼性を評価するための評価フレームワークを提案する。
本手法は, 信頼できない, バイアス注入されたモデルを検出し, バイアス前駆体の検索を行うための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - New Emerged Security and Privacy of Pre-trained Model: a Survey and Outlook [54.24701201956833]
セキュリティとプライバシーの問題は、事前訓練されたモデルに対するユーザーの信頼を損なう。
現在の文献は、事前訓練されたモデルに対する攻撃と防御の明確な分類を欠いている。
この分類法は、攻撃と防御をNo-Change、Input-Change、Model-Changeアプローチに分類する。
論文 参考訳(メタデータ) (2024-11-12T10:15:33Z) - Black-box Adversarial Transferability: An Empirical Study in Cybersecurity Perspective [0.0]
敵対的機械学習では、悪意のあるユーザは、トレーニングまたはテストフェーズ中に、相手の摂動入力をモデルに挿入することで、ディープラーニングモデルを騙そうとします。
サイバー攻撃検知システムにおけるブラックボックスの逆転現象を実証的に検証する。
その結果,攻撃者が対象モデルの内部情報にアクセスできなくても,どんなディープラーニングモデルでも敵攻撃に強い影響を受けやすいことが示唆された。
論文 参考訳(メタデータ) (2024-04-15T06:56:28Z) - Machine Learning Robustness: A Primer [12.426425119438846]
この議論はロバストネスの詳細な定義から始まり、MLモデルが様々な環境条件と予期せぬ環境条件で安定した性能を維持する能力であることを示している。
この章では、データバイアスやモデル複雑性、未特定のMLパイプラインの落とし穴など、堅牢性を阻害する要因について詳しく説明している。
議論は、デバイアスや拡張といったデータ中心のアプローチから始まる、堅牢性を促進するための改善戦略を探求する。
論文 参考訳(メタデータ) (2024-04-01T03:49:42Z) - Learning for Counterfactual Fairness from Observational Data [62.43249746968616]
公正な機械学習は、人種、性別、年齢などの特定の保護された(感受性のある)属性によって記述されるある種のサブグループに対して、学習モデルのバイアスを取り除くことを目的としている。
カウンターファクトフェアネスを達成するための既存の手法の前提条件は、データに対する因果モデルの事前の人間の知識である。
本研究では,新しいフレームワークCLAIREを提案することにより,因果関係を付与せずに観測データから対実的に公正な予測を行う問題に対処する。
論文 参考訳(メタデータ) (2023-07-17T04:08:29Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Understanding and Enhancing Robustness of Concept-based Models [41.20004311158688]
対向摂動に対する概念ベースモデルの堅牢性について検討する。
本稿では、まず、概念ベースモデルのセキュリティ脆弱性を評価するために、さまざまな悪意ある攻撃を提案し、分析する。
そこで我々は,これらのシステムのロバスト性を高めるための,汎用的対人訓練に基づく防御機構を提案する。
論文 参考訳(メタデータ) (2022-11-29T10:43:51Z) - FRSUM: Towards Faithful Abstractive Summarization via Enhancing Factual
Robustness [56.263482420177915]
我々は,既存のシステムの忠実さを,事実的堅牢性という新たな視点から研究する。
本研究では,新たなトレーニング戦略,すなわちFRSUMを提案し,そのモデルに対して,暗黙の対角的サンプルと暗黙の対向的摂動の両方を防御するように指導する。
論文 参考訳(メタデータ) (2022-11-01T06:09:00Z) - Disentangled Text Representation Learning with Information-Theoretic
Perspective for Adversarial Robustness [17.5771010094384]
敵の脆弱性は信頼性の高いNLPシステムを構築する上で大きな障害である。
最近の研究は、モデルの敵意的な脆弱性は教師あり訓練における非破壊的な特徴によって引き起こされると主張している。
本稿では,不整合表現学習の観点から,敵対的課題に取り組む。
論文 参考訳(メタデータ) (2022-10-26T18:14:39Z) - Robust Transferable Feature Extractors: Learning to Defend Pre-Trained
Networks Against White Box Adversaries [69.53730499849023]
また, 予測誤差を誘導するために, 逆例を独立に学習した別のモデルに移すことが可能であることを示す。
本稿では,頑健な伝達可能な特徴抽出器(RTFE)と呼ばれる,ディープラーニングに基づく事前処理機構を提案する。
論文 参考訳(メタデータ) (2022-09-14T21:09:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。