論文の概要: Addressing Topic Leakage in Cross-Topic Evaluation for Authorship Verification
- arxiv url: http://arxiv.org/abs/2407.19164v1
- Date: Sat, 27 Jul 2024 04:16:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 19:31:05.603471
- Title: Addressing Topic Leakage in Cross-Topic Evaluation for Authorship Verification
- Title(参考訳): オーサシップ検証のためのクロストピック評価における話題漏洩への対処
- Authors: Jitkapat Sawatphol, Can Udomcharoenchaikit, Sarana Nutanong,
- Abstract要約: オーサシップ検証(AV)は、テキストのペアが同じ著者を持っているかどうかを特定することを目的としている。
従来の評価では、トレーニングとテストデータの重複が最小限に抑えられている。
我々は、まだテストデータにトピックリークがあり、誤ったモデル性能と不安定なランキングを引き起こしていると主張している。
- 参考スコア(独自算出の注目度): 7.467445326172115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Authorship verification (AV) aims to identify whether a pair of texts has the same author. We address the challenge of evaluating AV models' robustness against topic shifts. The conventional evaluation assumes minimal topic overlap between training and test data. However, we argue that there can still be topic leakage in test data, causing misleading model performance and unstable rankings. To address this, we propose an evaluation method called Heterogeneity-Informed Topic Sampling (HITS), which creates a smaller dataset with a heterogeneously distributed topic set. Our experimental results demonstrate that HITS-sampled datasets yield a more stable ranking of models across random seeds and evaluation splits. Our contributions include: 1. An analysis of causes and effects of topic leakage. 2. A demonstration of the HITS in reducing the effects of topic leakage, and 3. The Robust Authorship Verification bENchmark (RAVEN) that allows topic shortcut test to uncover AV models' reliance on topic-specific features.
- Abstract(参考訳): オーサシップ検証(AV)は、テキストのペアが同じ著者を持っているかどうかを特定することを目的としている。
トピックシフトに対するAVモデルの堅牢性を評価するという課題に対処する。
従来の評価では、トレーニングデータとテストデータの間に最小限のトピックオーバーラップが想定されている。
しかし、テストデータにはトピックリークがあり、誤ったモデル性能と不安定なランキングを引き起こす可能性があると論じる。
そこで本研究では,ヘテロジニティ・インフォームド・トピックサンプリング(HITS, Heterogeneity-Informed Topic Smpling)と呼ばれる評価手法を提案する。
実験結果から,HITSをサンプリングしたデータセットは,ランダムシードと評価スプリットにまたがって,より安定したモデルランキングが得られることが示された。
コントリビューションには以下のものがある。
1.話題漏洩の原因と影響の分析
2.トピックリークの影響の低減におけるHITSの実証
3. トピックショートカットテストによって、AVモデルのトピック固有の機能への依存を明らかにすることができるRobust Authorship Verification bENchmark (RAVEN)。
関連論文リスト
- Investigating the Impact of Hard Samples on Accuracy Reveals In-class Data Imbalance [4.291589126905706]
AutoMLドメインでは、モデルの有効性を評価するための重要な指標として、テスト精度が宣言される。
しかし、主性能指標としての試験精度の信頼性は疑問視されている。
トレーニングセットとテストセット間のハードサンプルの分布は、これらのセットの難易度に影響を与える。
本稿では,ハードサンプル識別法を比較するためのベンチマーク手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T11:38:14Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - Counterfactual Image Generation for adversarially robust and
interpretable Classifiers [1.3859669037499769]
本稿では,GAN(Generative Adrial Networks)を基盤として,画像から画像への変換を利用した統合フレームワークを提案する。
これは、分類器と識別器を1つのモデルに組み合わせて、実際の画像をそれぞれのクラスに属性付け、生成されたイメージを「フェイク」として生成することで達成される。
モデルが敵攻撃に対するロバスト性の向上を示すことを示すとともに,判別器の「フェイクネス」値が予測の不確かさの指標となることを示す。
論文 参考訳(メタデータ) (2023-10-01T18:50:29Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Towards Robust Visual Question Answering: Making the Most of Biased
Samples via Contrastive Learning [54.61762276179205]
我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。
具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。
我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
論文 参考訳(メタデータ) (2022-10-10T11:05:21Z) - A Disentangled Adversarial Neural Topic Model for Separating Opinions
from Plots in User Reviews [35.802290746473524]
本稿では,ニューラルトピックモデルと敵対的トレーニングを組み合わせることで,プロットと中立的トピックから意見トピックを分離する手法を提案する。
本研究は,新たな映画・書評の収集とプロットの併用による評価を実験的に実施する。
改善されたコヒーレンスと多種多様なトピック、一貫した絡み合い率、および他の教師付きトピックモデルよりも優れた感情分類性能を示す。
論文 参考訳(メタデータ) (2020-10-22T02:15:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。