論文の概要: Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents
- arxiv url: http://arxiv.org/abs/2503.08684v1
- Date: Tue, 11 Mar 2025 17:59:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:46:08.771618
- Title: Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents
- Title(参考訳): Perplexity Trap: PLMベースのレトリバーは低複雑さのドキュメントをオーバーレイする
- Authors: Haoyu Wang, Sunhao Dai, Haiyuan Zhao, Liang Pang, Xiao Zhang, Gang Wang, Zhenhua Dong, Jun Xu, Ji-Rong Wen,
- Abstract要約: 因果診断・矯正法(CDC)という因果推論時間脱バイアス法を提案する。
CDCはまず、パープレキシティのバイアス効果を診断し、その後、全体の関連スコアからバイアス効果を分離する。
3つの領域にまたがる実験結果から, より優れた脱バイアス効果が示された。
- 参考スコア(独自算出の注目度): 64.43980129731587
- License:
- Abstract: Previous studies have found that PLM-based retrieval models exhibit a preference for LLM-generated content, assigning higher relevance scores to these documents even when their semantic quality is comparable to human-written ones. This phenomenon, known as source bias, threatens the sustainable development of the information access ecosystem. However, the underlying causes of source bias remain unexplored. In this paper, we explain the process of information retrieval with a causal graph and discover that PLM-based retrievers learn perplexity features for relevance estimation, causing source bias by ranking the documents with low perplexity higher. Theoretical analysis further reveals that the phenomenon stems from the positive correlation between the gradients of the loss functions in language modeling task and retrieval task. Based on the analysis, a causal-inspired inference-time debiasing method is proposed, called Causal Diagnosis and Correction (CDC). CDC first diagnoses the bias effect of the perplexity and then separates the bias effect from the overall estimated relevance score. Experimental results across three domains demonstrate the superior debiasing effectiveness of CDC, emphasizing the validity of our proposed explanatory framework. Source codes are available at https://github.com/WhyDwelledOnAi/Perplexity-Trap.
- Abstract(参考訳): 従来,PLMをベースとした検索モデルでは,人間の文章に匹敵するセマンティックな品質であっても,それらの文書に高い関連性スコアを付与する傾向が見られた。
この現象はソースバイアスと呼ばれ、情報アクセスエコシステムの持続可能な発展を脅かす。
しかし、ソースバイアスの根本原因は未解明のままである。
本稿では、因果グラフを用いた情報検索のプロセスを説明し、PLMベースの検索者が関連性推定のためにパープレキシティ特徴を学習していることを発見し、文書を低いパープレキシティでランク付けすることで、ソースバイアスを引き起こす。
理論的解析により、この現象は言語モデリングタスクにおける損失関数の勾配と検索タスクとの正の相関から生じることが明らかとなった。
この分析に基づき、因果的推論時間脱バイアス法(Causal Diagnosis and Correction, CDC)を提案する。
CDCはまず、パープレキシティのバイアス効果を診断し、そのバイアス効果を全体の推定関連スコアから分離する。
3つの領域にまたがる実験の結果,CDCの優れた脱バイアス効果が示され,提案した説明枠組みの有効性が強調された。
ソースコードはhttps://github.com/WhyDwelledOnAi/Perplexity-Trapで入手できる。
関連論文リスト
- Deep evolving semi-supervised anomaly detection [14.027613461156864]
本研究の目的は,連続的半教師付き異常検出(CSAD)のタスクを形式化することである。
本稿では,半教師付きデータを扱うための変分オートエンコーダ(VAE)のベースラインモデルを提案する。
論文 参考訳(メタデータ) (2024-12-01T15:48:37Z) - Predicting Scientific Impact Through Diffusion, Conformity, and Contribution Disentanglement [11.684776349325887]
既存のモデルは、引用数推定に静的グラフに依存するのが一般的である。
論文の拡散, コンフォーマル性, コントリビューション値に潜在的影響を分散させる新しいモデルDPPDCCを導入する。
論文 参考訳(メタデータ) (2023-11-15T07:21:11Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal
Intervention [72.12974259966592]
トリミングビデオクリップのトレーニングセットとテストセットのフレーム長差による時間偏差について,一意かつ体系的に検討した。
Epic-Kitchens-100, YouCook2, MSR-VTTデータセットについて, 因果脱バイアス法を提案し, 広範な実験およびアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-09-17T15:58:27Z) - Insights Into the Nutritional Prevention of Macular Degeneration based
on a Comparative Topic Modeling Approach [0.0]
本研究は, 比較トピックモデリング手法を提案する。
本手法は, 補充栄養成分が黄斑変性(MD)に有益であるか否かを, 広視野で検討した。
論文 参考訳(メタデータ) (2023-09-01T07:53:28Z) - Inducing Causal Structure for Abstractive Text Summarization [76.1000380429553]
要約データの因果構造を誘導する構造因果モデル(SCM)を導入する。
本稿では因果的要因を模倣できる因果的表現を学習するための因果性インスピレーション付き系列列列モデル(CI-Seq2Seq)を提案する。
2つの広く使われているテキスト要約データセットの実験結果は、我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2023-08-24T16:06:36Z) - Biases in Inverse Ising Estimates of Near-Critical Behaviour [0.0]
逆推論は、ペアワイズ相互作用を経験的相関から再構成することを可能にする。
Pseudo-likelihood (PLM) などの推定値に偏りが認められた。
データ駆動法は神経科学による機能的磁気共鳴イメージング(fMRI)データセットに研究され応用された。
論文 参考訳(メタデータ) (2023-01-13T14:01:43Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。