論文の概要: The Challenges of Machine Learning for Trust and Safety: A Case Study on
Misinformation Detection
- arxiv url: http://arxiv.org/abs/2308.12215v2
- Date: Fri, 23 Feb 2024 16:13:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 18:06:00.919863
- Title: The Challenges of Machine Learning for Trust and Safety: A Case Study on
Misinformation Detection
- Title(参考訳): 信頼と安全のための機械学習の課題 : 誤情報検出を事例として
- Authors: Madelyne Xiao, Jonathan Mayer
- Abstract要約: 信頼性と安全性の問題に機械学習を適用する際、奨学金と実践の切り離しについて検討する。
フィールドに270の有能な論文からなるコーパスを用いた誤情報の自動検出に関する文献の体系化を行った。
- 参考スコア(独自算出の注目度): 0.951828574518325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We examine the disconnect between scholarship and practice in applying
machine learning to trust and safety problems, using misinformation detection
as a case study. We systematize literature on automated detection of
misinformation across a corpus of 270 well-cited papers in the field. We then
examine subsets of papers for data and code availability, design missteps,
reproducibility, and generalizability. Our paper corpus includes published work
in security, natural language processing, and computational social science.
Across these disparate disciplines, we identify common errors in dataset and
method design. In general, detection tasks are often meaningfully distinct from
the challenges that online services actually face. Datasets and model
evaluation are often non-representative of real-world contexts, and evaluation
frequently is not independent of model training. Data and code availability is
poor. We demonstrate the limitations of current detection methods in a series
of three replication studies. Based on the results of these analyses and our
literature survey, we offer recommendations for evaluating applications of
machine learning to trust and safety problems in general. Our aim is for future
work to avoid the pitfalls that we identify.
- Abstract(参考訳): 信頼と安全問題に機械学習を適用する際の奨学金と実践の分離を,誤情報検出を事例として検討する。
フィールドに270の有能な論文からなるコーパスを用いた誤情報の自動検出に関する文献を体系化する。
次に、データおよびコードの可用性、設計ミスステップ、再現性、一般化性のための論文のサブセットを調べます。
論文のコーパスには,セキュリティ,自然言語処理,計算社会科学に関する著作が含まれている。
これらの異なる分野にまたがって、データセットとメソッド設計における一般的なエラーを特定します。
一般的に、検出タスクは、オンラインサービスが実際に直面する課題とは、しばしば意味的に異なる。
データセットとモデル評価は、しばしば実世界のコンテキストに非代表的であり、評価はしばしばモデルトレーニングとは独立ではない。
データとコードの可用性は乏しい。
本稿では,3つの複製研究における電流検出手法の限界について述べる。
これらの分析結果と文献調査に基づいて,マシンラーニングの信頼性および安全性問題への適用性を評価するための推奨事項を提案する。
私たちの目標は、私たちが特定する落とし穴を避けるための将来の作業です。
関連論文リスト
- Investigating Reproducibility in Deep Learning-Based Software Fault
Prediction [16.25827159504845]
ますます複雑な機械学習モデルが急速に採用されるようになると、学者が文献で報告される結果を再現することがますます困難になる。
特に、適用されたディープラーニングモデルと評価方法論が適切に文書化されていない場合と、コードとデータが共有されていない場合である。
我々は,2019年から2022年にかけて,トップレベルのソフトウェアエンジニアリングカンファレンスにおいて,現在の文献を体系的にレビューし,56件の研究論文のレベルを検討した。
論文 参考訳(メタデータ) (2024-02-08T13:00:18Z) - Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。
トピックと検出性能の間に有意な相関関係が発見された。
これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文 参考訳(メタデータ) (2023-12-20T10:53:53Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Fraud Dataset Benchmark and Applications [25.184342958800293]
Fraud dataset Benchmark(FDB)は、不正検出に特化した公開データセットのコンパイルである。
FDBには、不正なカード非表示トランザクションの識別、ボット攻撃の検出、悪意のあるURLの分類、コンテンツモデレーションに対するローンのデフォルトリスクの推定など、さまざまな不正関連タスクが含まれている。
FDB用のPythonベースのライブラリは、標準化されたトレーニングとテストの分割を伴うデータローディングのための一貫したAPIを提供する。
論文 参考訳(メタデータ) (2022-08-30T17:35:39Z) - Deep Learning for Anomaly Detection in Log Data: A Survey [3.508620069426877]
自己学習異常検出技術は、ログデータのパターンをキャプチャし、予期しないログイベントを報告する。
この目的のためのディープラーニングニューラルネットワークが紹介されている。
ディープラーニングにはさまざまなアーキテクチャがあり、生と非構造化のログデータをエンコードするのは簡単ではない。
論文 参考訳(メタデータ) (2022-07-08T10:58:28Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Poisoning Attacks and Defenses on Artificial Intelligence: A Survey [3.706481388415728]
データ中毒攻撃は、トレーニングフェーズ中にモデルに供給されたデータサンプルを改ざんして、推論フェーズ中にモデルの精度を低下させる攻撃の一種である。
この研究は、この種の攻撃に対処する最新の文献で見つかった最も関連性の高い洞察と発見をまとめたものである。
実環境下での幅広いMLモデルに対するデータ中毒の影響を比較検討し,本研究の徹底的な評価を行った。
論文 参考訳(メタデータ) (2022-02-21T14:43:38Z) - Individual Explanations in Machine Learning Models: A Survey for
Practitioners [69.02688684221265]
社会的関連性の高い領域の決定に影響を与える洗練された統計モデルの使用が増加しています。
多くの政府、機関、企業は、アウトプットが人間の解釈可能な方法で説明しにくいため、採用に消極的です。
近年,機械学習モデルに解釈可能な説明を提供する方法として,学術文献が多数提案されている。
論文 参考訳(メタデータ) (2021-04-09T01:46:34Z) - Predicting Themes within Complex Unstructured Texts: A Case Study on
Safeguarding Reports [66.39150945184683]
本稿では,教師付き分類手法を用いた保護レポートにおいて,主テーマの自動識別の問題に焦点をあてる。
この結果から,ラベル付きデータに制限のある複雑なタスクであっても,深層学習モデルが対象知識の振る舞いをシミュレートする可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T19:48:23Z) - Dos and Don'ts of Machine Learning in Computer Security [74.1816306998445]
大きな可能性にもかかわらず、セキュリティにおける機械学習は、パフォーマンスを損なう微妙な落とし穴を引き起こす傾向がある。
我々は,学習ベースのセキュリティシステムの設計,実装,評価において共通の落とし穴を特定する。
我々は,落とし穴の回避や軽減を支援するために,研究者を支援するための実用的な勧告を提案する。
論文 参考訳(メタデータ) (2020-10-19T13:09:31Z) - An Intelligent and Time-Efficient DDoS Identification Framework for
Real-Time Enterprise Networks SAD-F: Spark Based Anomaly Detection Framework [0.5811502603310248]
我々は、異なる機械学習技術を用いたDDoS異常検出のためのセキュリティ解析技術について検討する。
本稿では,システムへの入力として実際のトラフィックを扱う新しいアプローチを提案する。
提案するフレームワークの性能要因を3つの異なるテストベッドで検討・比較する。
論文 参考訳(メタデータ) (2020-01-21T06:05:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。