論文の概要: Yesterday's News: Benchmarking Multi-Dimensional Out-of-Distribution Generalisation of Misinformation Detection Models
- arxiv url: http://arxiv.org/abs/2410.18122v1
- Date: Sat, 12 Oct 2024 09:46:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:39.604811
- Title: Yesterday's News: Benchmarking Multi-Dimensional Out-of-Distribution Generalisation of Misinformation Detection Models
- Title(参考訳): 昨日のニュース:誤情報検出モデルの多次元アウトオブディストリビューション一般化のベンチマーク
- Authors: Ivo Verhoeven, Pushkar Mishra, Ekaterina Shutova,
- Abstract要約: Misinfo-Generalは、偽情報モデルのアウト・オブ・ディストリビューションの一般化を行う能力を評価するためのベンチマークデータセットである。
一般化時間,イベント,トピック,パブリッシャ,政治バイアス,誤情報型および設計評価手順の6つの軸を識別する。
- 参考スコア(独自算出の注目度): 15.120606566150816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces misinfo-general, a benchmark dataset for evaluating misinformation models' ability to perform out-of-distribution generalisation. Misinformation changes rapidly, much quicker than moderators can annotate at scale, resulting in a shift between the training and inference data distributions. As a result, misinformation models need to be able to perform out-of-distribution generalisation, an understudied problem in existing datasets. We identify 6 axes of generalisation-time, event, topic, publisher, political bias, misinformation type-and design evaluation procedures for each. We also analyse some baseline models, highlighting how these fail important desiderata.
- Abstract(参考訳): 本稿では,誤情報モデルによるアウト・オブ・ディストリビューションの一般化能力を評価するためのベンチマークデータセットであるMissinfo-Generalを紹介する。
誤報は、モデレーターが大規模にアノテートできるよりもはるかに高速に急速に変化するため、トレーニングと推論データの分布はシフトする。
結果として、誤報モデルは既存のデータセットの未調査問題である配布外一般化を実行する必要がある。
一般化時間,イベント,トピック,パブリッシャ,政治バイアス,誤情報型および設計評価手順の6つの軸を識別する。
また、いくつかのベースラインモデルを分析し、これらがいかに重要なデシダラタを失敗するかを強調します。
関連論文リスト
- Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Prospector Heads: Generalized Feature Attribution for Large Models & Data [82.02696069543454]
本稿では,説明に基づく帰属手法の効率的かつ解釈可能な代替手段であるプロスペクタヘッドを紹介する。
入力データにおけるクラス固有のパターンの解釈と発見を、プロファイラヘッドがいかに改善できるかを実証する。
論文 参考訳(メタデータ) (2024-02-18T23:01:28Z) - Supervised Algorithmic Fairness in Distribution Shifts: A Survey [17.826312801085052]
現実世界のアプリケーションでは、機械学習モデルは特定のデータセットでトレーニングされることが多いが、データ分散がシフトする可能性のある環境にデプロイされる。
この変化は、人種や性別などのセンシティブな属性によって特徴づけられる特定のグループに不公平な予測をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-02-02T11:26:18Z) - Probabilistic Test-Time Generalization by Variational Neighbor-Labeling [62.158807685159736]
本稿では、ドメインの一般化を試み、モデルが未確認のターゲットドメインにデプロイされる前に、ソースドメインにのみトレーニングされる。
ソーストレーニングされたモデルをテスト時にターゲットドメインに一般化するための、ターゲットサンプルの擬似ラベル化の確率。
より堅牢な擬似ラベルを生成するために、近隣のターゲットサンプルの情報を含む変分隣接ラベル。
論文 参考訳(メタデータ) (2023-07-08T18:58:08Z) - Beyond Normal: On the Evaluation of Mutual Information Estimators [52.85079110699378]
そこで本研究では,既知の地道的相互情報を用いて,多種多様な分布群を構築する方法について述べる。
本稿では,問題の難易度に適応した適切な推定器の選択方法について,実践者のためのガイドラインを提供する。
論文 参考訳(メタデータ) (2023-06-19T17:26:34Z) - An Offline Metric for the Debiasedness of Click Models [52.25681483524383]
クリックモデルは、ユーザークリックから情報を抽出する一般的な方法である。
最近の研究は、コミュニティにおける現在の評価プラクティスが、良いパフォーマンスのクリックモデルが下流のタスクにうまく一般化することを保証できないことを示している。
クリックモデリングにおける偏りの概念を導入し,その測定基準を導出する。
論文 参考訳(メタデータ) (2023-04-19T10:59:34Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Wild-Time: A Benchmark of in-the-Wild Distribution Shift over Time [69.77704012415845]
時間的シフトは、現実世界にデプロイされた機械学習モデルのパフォーマンスを著しく低下させる可能性がある。
ドメイン一般化、連続学習、自己教師付き学習、アンサンブル学習の手法を含む13の先行手法をベンチマークする。
いずれの評価方略も,分布外データから分布外データへの平均的な性能低下を観察する。
論文 参考訳(メタデータ) (2022-11-25T17:07:53Z) - Canary in a Coalmine: Better Membership Inference with Ensembled
Adversarial Queries [53.222218035435006]
私たちは、差別的で多様なクエリを最適化するために、逆ツールを使用します。
我々の改善は既存の方法よりもはるかに正確な会員推定を実現している。
論文 参考訳(メタデータ) (2022-10-19T17:46:50Z) - Identifying the Context Shift between Test Benchmarks and Production
Data [1.2259552039796024]
データセットベンチマークにおける機械学習モデルの精度と実運用データの間には、パフォーマンスのギャップがある。
分布変化とモデル予測誤差につながる文脈変化を同定する2つの手法を概説する。
本研究は,機械学習モデルに基づく暗黙の仮定を強調するケーススタディを2つ提示する。
論文 参考訳(メタデータ) (2022-07-03T14:54:54Z) - AnoShift: A Distribution Shift Benchmark for Unsupervised Anomaly
Detection [7.829710051617368]
本稿では,ネットワーク侵入検知のためのトラフィックデータセットである Kyoto-2006+ 上に構築された,時間とともに変化するデータを含む教師なし異常検出ベンチマークを提案する。
まず, 基本機能解析, t-SNE, および最適輸送手法を用いて, 年々の分布距離を計測する。
従来のアプローチからディープラーニングまで,さまざまなモデルでパフォーマンス劣化を検証する。
論文 参考訳(メタデータ) (2022-06-30T17:59:22Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Evaluating Predictive Uncertainty and Robustness to Distributional Shift
Using Real World Data [0.0]
シフト天気予報データセットを用いて、一般的な回帰作業のためのメトリクスを提案する。
また,これらの指標を用いたベースライン手法の評価を行った。
論文 参考訳(メタデータ) (2021-11-08T17:32:10Z) - An Information-theoretic Approach to Distribution Shifts [9.475039534437332]
機械学習モデルを現実世界に安全にデプロイすることは、しばしば難しいプロセスである。
特定の地理的位置から得られたデータで訓練されたモデルは、他の場所で得られたデータでクエリされたときに失敗する傾向がある。
集団のサブセットに適合するニューラルネットワークは 選択バイアスを 与えるかもしれない
論文 参考訳(メタデータ) (2021-06-07T16:44:21Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z) - Regularizing Models via Pointwise Mutual Information for Named Entity
Recognition [17.767466724342064]
ドメイン内での性能を向上しつつ、一般化能力を高めるために、PMI(Pointwise Mutual Information)を提案する。
提案手法により,ベンチマークデータセットの単語とラベルの相関度を高く抑えることができる。
長い名前と複雑な構造を持つエンティティに対して、これらのエンティティは協調的あるいは特別な文字の偏りによって予測できる。
論文 参考訳(メタデータ) (2021-04-15T05:47:27Z) - The Surprising Performance of Simple Baselines for Misinformation
Detection [4.060731229044571]
我々は、現代のトランスフォーマーベースの言語モデルの広いセットのパフォーマンスを調べます。
誤情報検出の新たな手法の創出と評価のベースラインとして,本フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-14T16:25:22Z) - On Cross-Dataset Generalization in Automatic Detection of Online Abuse [7.163723138100273]
Wikipedia Detoxデータセットの良質な例は、プラットフォーム固有のトピックに偏っていることを示す。
教師なしトピックモデリングとトピックのキーワードの手動検査を用いてこれらの例を同定する。
頑健なデータセット設計のために、収集したデータを検査し、一般化不可能なコンテンツを小さくするために、安価な教師なし手法を適用することを提案する。
論文 参考訳(メタデータ) (2020-10-14T21:47:03Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z) - Learning Unbiased Representations via Mutual Information Backpropagation [36.383338079229695]
特に、モデルによって学習された場合、データのいくつかの属性(バイアス)が一般化特性を著しく損なう可能性がある場合に直面します。
本稿では,学習した表現とデータ属性の相互情報を同時に推定し,最小化する,新しいエンドツーエンド最適化手法を提案する。
論文 参考訳(メタデータ) (2020-03-13T18:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。