論文の概要: Training-Induced Bias Toward LLM-Generated Content in Dense Retrieval
- arxiv url: http://arxiv.org/abs/2602.10833v1
- Date: Wed, 11 Feb 2026 13:20:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.928813
- Title: Training-Induced Bias Toward LLM-Generated Content in Dense Retrieval
- Title(参考訳): 深度検索におけるLCM生成コンテンツに向けたトレーニングによるバイアス
- Authors: William Xion, Wolfgang Nejdl,
- Abstract要約: 報告書は、大きな言語モデル(LLM)によって生成されるテキストを広く好んでいると主張している。
本研究では,トレーニング段階やデータソースにまたがって,そのような嗜好の出現をトレースする。
本研究は, ソースバイアスが高密度レトリバーの固有特性ではなく, トレーニングによって引き起こされる現象であることを示す。
- 参考スコア(独自算出の注目度): 6.771568584669793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense retrieval is a promising approach for acquiring relevant context or world knowledge in open-domain natural language processing tasks and is now widely used in information retrieval applications. However, recent reports claim a broad preference for text generated by large language models (LLMs). This bias is called "source bias", and it has been hypothesized that lower perplexity contributes to this effect. In this study, we revisit this claim by conducting a controlled evaluation to trace the emergence of such preferences across training stages and data sources. Using parallel human- and LLM-generated counterparts of the SciFact and Natural Questions (NQ320K) datasets, we compare unsupervised checkpoints with models fine-tuned using in-domain human text, in-domain LLM-generated text, and MS MARCO. Our results show the following: 1) Unsupervised retrievers do not exhibit a uniform pro-LLM preference. The direction and magnitude depend on the dataset. 2) Across the settings tested, supervised fine-tuning on MS MARCO consistently shifts the rankings toward LLM-generated text. 3) In-domain fine-tuning produces dataset-specific and inconsistent shifts in preference. 4) Fine-tuning on LLM-generated corpora induces a pronounced pro-LLM bias. Finally, a retriever-centric perplexity probe involving the reattachment of a language modeling head to the fine-tuned dense retriever encoder indicates agreement with relevance near chance, thereby weakening the explanatory power of perplexity. Our study demonstrates that source bias is a training-induced phenomenon rather than an inherent property of dense retrievers.
- Abstract(参考訳): デンス検索は、オープンドメイン自然言語処理タスクにおいて、関連するコンテキストや世界知識を取得するための有望なアプローチであり、情報検索アプリケーションで広く利用されている。
しかし、最近の報告では、大きな言語モデル(LLM)によって生成されるテキストを広く好んでいる。
このバイアスは「ソースバイアス」と呼ばれ、低いパープレキシティがこの効果に寄与すると仮定されている。
本研究では,このような嗜好の出現を学習段階やデータソース間で追跡するために,制御された評価を行うことにより,この主張を再考する。
SciFact and Natural Questions (NQ320K)データセットの並列な人間およびLLM生成データセットを用いて、教師なしチェックポイントと、ドメイン内テキスト、ドメイン内LPM生成テキスト、MS MARCOを用いて微調整されたモデルを比較した。
以下の結果が得られた。
1) 教師なしレトリバーは, 統一されたLLM選択を示さない。
方向と大きさはデータセットに依存する。
2)MS MARCO の微調整は,テストした設定全体を通して常にランキングを LLM 生成テキストにシフトさせる。
3)ドメイン内微細チューニングは,データセット固有の,一貫性のない傾向を優先的に生成する。
4) LLM生成コーパスの微調整により, 顕著なLLMバイアスが生じる。
最後に、言語モデリングヘッドの微調整された高密度レトリバーエンコーダへの再取込みを含むレトリバー中心のパープレキティプローブは、チャンスに近い関連性を示すので、パープレキティの説明力を弱める。
本研究は, ソースバイアスが高密度レトリバーの固有特性ではなく, トレーニングによって引き起こされる現象であることを示す。
関連論文リスト
- How Do LLM-Generated Texts Impact Term-Based Retrieval Models? [76.92519309816008]
本稿では,大規模言語モデル(LLM)が項ベース検索モデルに与える影響について検討する。
言語学的解析により,LLM生成テキストはよりスムーズで低周波なZipf勾配を示すことが明らかとなった。
本研究は,項分布がクエリと密接に一致した文書を優先して,項ベース検索モデルがソースバイアスを示すかどうかを考察する。
論文 参考訳(メタデータ) (2025-08-25T06:43:27Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - Robustness of Large Language Models to Perturbations in Text [2.2734015467359217]
大規模言語モデル(LLM)は素晴らしいパフォーマンスを示していますが、現実のデータでは避けられないノイズを処理できますか?
この研究は、LLMのテキストのモルフォロジー変化に対するレジリエンスを調査することによって、この重要な問題に取り組む。
以上の結果から, LLM は, 一般の信念とは対照的に, 文中での騒々しい摂動に対して静かであることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-12T04:50:17Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Neural Retrievers are Biased Towards LLM-Generated Content [35.40318940303482]
大規模言語モデル(LLM)は情報検索(IR)のパラダイムに革命をもたらした。
これらのLCM生成した文書がIRシステムにどのように影響するかは、迫りつつも未解明の疑問である。
意外なことに, ニューラルネットワークによる検索モデルでは, LLM生成文書のランクが高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2023-10-31T14:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。