Fugu-MT 論文翻訳(概要): Addressing Topic Leakage in Cross-Topic Evaluation for Authorship Verification

論文の概要: Addressing Topic Leakage in Cross-Topic Evaluation for Authorship Verification

arxiv url: http://arxiv.org/abs/2407.19164v1
Date: Sat, 27 Jul 2024 04:16:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-30 19:31:05.603471
Title: Addressing Topic Leakage in Cross-Topic Evaluation for Authorship Verification
Title（参考訳）: オーサシップ検証のためのクロストピック評価における話題漏洩への対処
Authors: Jitkapat Sawatphol, Can Udomcharoenchaikit, Sarana Nutanong,
Abstract要約: オーサシップ検証(AV)は、テキストのペアが同じ著者を持っているかどうかを特定することを目的としている。従来の評価では、トレーニングとテストデータの重複が最小限に抑えられている。我々は、まだテストデータにトピックリークがあり、誤ったモデル性能と不安定なランキングを引き起こしていると主張している。
参考スコア（独自算出の注目度）: 7.467445326172115
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Authorship verification (AV) aims to identify whether a pair of texts has the same author. We address the challenge of evaluating AV models' robustness against topic shifts. The conventional evaluation assumes minimal topic overlap between training and test data. However, we argue that there can still be topic leakage in test data, causing misleading model performance and unstable rankings. To address this, we propose an evaluation method called Heterogeneity-Informed Topic Sampling (HITS), which creates a smaller dataset with a heterogeneously distributed topic set. Our experimental results demonstrate that HITS-sampled datasets yield a more stable ranking of models across random seeds and evaluation splits. Our contributions include: 1. An analysis of causes and effects of topic leakage. 2. A demonstration of the HITS in reducing the effects of topic leakage, and 3. The Robust Authorship Verification bENchmark (RAVEN) that allows topic shortcut test to uncover AV models' reliance on topic-specific features.
Abstract（参考訳）: オーサシップ検証(AV)は、テキストのペアが同じ著者を持っているかどうかを特定することを目的としている。トピックシフトに対するAVモデルの堅牢性を評価するという課題に対処する。従来の評価では、トレーニングデータとテストデータの間に最小限のトピックオーバーラップが想定されている。しかし、テストデータにはトピックリークがあり、誤ったモデル性能と不安定なランキングを引き起こす可能性があると論じる。そこで本研究では,ヘテロジニティ・インフォームド・トピックサンプリング(HITS, Heterogeneity-Informed Topic Smpling)と呼ばれる評価手法を提案する。実験結果から,HITSをサンプリングしたデータセットは,ランダムシードと評価スプリットにまたがって,より安定したモデルランキングが得られることが示された。コントリビューションには以下のものがある。 1.話題漏洩の原因と影響の分析 2.トピックリークの影響の低減におけるHITSの実証 3. トピックショートカットテストによって、AVモデルのトピック固有の機能への依存を明らかにすることができるRobust Authorship Verification bENchmark (RAVEN)。

関連論文リスト

Unpacking the Resilience of SNLI Contradiction Examples to Attacks [0.38366697175402226]
我々は,モデルの脆弱性を調べるためにユニバーサル・アドバイサル・アタックを適用した。分析の結果,含意クラスと中性クラスの精度は著しく低下した。逆例のある拡張データセット上でモデルを微調整することで、その性能はほぼベースラインレベルに回復した。
論文参考訳（メタデータ） (2024-12-15T12:47:28Z)
Addressing Key Challenges of Adversarial Attacks and Defenses in the Tabular Domain: A Methodological Framework for Coherence and Consistency [26.645723217188323]
CSAD(Class-Specific Anomaly Detection)は,新しい異常検出手法である。 CSADは, 広い良性分布ではなく, 予測されたクラス分布に対して, 対数サンプルを評価する。本評価では, 異常検出率とSHAPに基づく評価を併用し, 対向検体品質のより包括的測定を行う。
論文参考訳（メタデータ） (2024-12-10T09:17:09Z)
Investigating the Impact of Hard Samples on Accuracy Reveals In-class Data Imbalance [4.291589126905706]
AutoMLドメインでは、モデルの有効性を評価するための重要な指標として、テスト精度が宣言される。しかし、主性能指標としての試験精度の信頼性は疑問視されている。トレーニングセットとテストセット間のハードサンプルの分布は、これらのセットの難易度に影響を与える。本稿では,ハードサンプル識別法を比較するためのベンチマーク手法を提案する。
論文参考訳（メタデータ） (2024-09-22T11:38:14Z)
Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。 ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文参考訳（メタデータ） (2024-06-26T05:30:21Z)
Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文参考訳（メタデータ） (2023-12-27T09:03:43Z)
AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文参考訳（メタデータ） (2023-11-16T02:56:29Z)
Counterfactual Image Generation for adversarially robust and interpretable Classifiers [1.3859669037499769]
本稿では,GAN(Generative Adrial Networks)を基盤として,画像から画像への変換を利用した統合フレームワークを提案する。これは、分類器と識別器を1つのモデルに組み合わせて、実際の画像をそれぞれのクラスに属性付け、生成されたイメージを「フェイク」として生成することで達成される。モデルが敵攻撃に対するロバスト性の向上を示すことを示すとともに,判別器の「フェイクネス」値が予測の不確かさの指標となることを示す。
論文参考訳（メタデータ） (2023-10-01T18:50:29Z)
Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文参考訳（メタデータ） (2023-04-04T17:54:32Z)
Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文参考訳（メタデータ） (2023-02-22T14:50:24Z)
Towards Robust Visual Question Answering: Making the Most of Biased Samples via Contrastive Learning [54.61762276179205]
我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
論文参考訳（メタデータ） (2022-10-10T11:05:21Z)
Exploiting Sample Uncertainty for Domain Adaptive Person Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文参考訳（メタデータ） (2020-12-16T04:09:04Z)
A Disentangled Adversarial Neural Topic Model for Separating Opinions from Plots in User Reviews [35.802290746473524]
本稿では,ニューラルトピックモデルと敵対的トレーニングを組み合わせることで,プロットと中立的トピックから意見トピックを分離する手法を提案する。本研究は,新たな映画・書評の収集とプロットの併用による評価を実験的に実施する。改善されたコヒーレンスと多種多様なトピック、一貫した絡み合い率、および他の教師付きトピックモデルよりも優れた感情分類性能を示す。
論文参考訳（メタデータ） (2020-10-22T02:15:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。