論文の概要: How Do LLM-Generated Texts Impact Term-Based Retrieval Models?
- arxiv url: http://arxiv.org/abs/2508.17715v1
- Date: Mon, 25 Aug 2025 06:43:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.664862
- Title: How Do LLM-Generated Texts Impact Term-Based Retrieval Models?
- Title(参考訳): LLM生成テキストは長期検索モデルにどのように影響するか?
- Authors: Wei Huang, Keping Bi, Yinqiong Cai, Wei Chen, Jiafeng Guo, Xueqi Cheng,
- Abstract要約: 本稿では,大規模言語モデル(LLM)が項ベース検索モデルに与える影響について検討する。
言語学的解析により,LLM生成テキストはよりスムーズで低周波なZipf勾配を示すことが明らかとなった。
本研究は,項分布がクエリと密接に一致した文書を優先して,項ベース検索モデルがソースバイアスを示すかどうかを考察する。
- 参考スコア(独自算出の注目度): 76.92519309816008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As more content generated by large language models (LLMs) floods into the Internet, information retrieval (IR) systems now face the challenge of distinguishing and handling a blend of human-authored and machine-generated texts. Recent studies suggest that neural retrievers may exhibit a preferential inclination toward LLM-generated content, while classic term-based retrievers like BM25 tend to favor human-written documents. This paper investigates the influence of LLM-generated content on term-based retrieval models, which are valued for their efficiency and robust generalization across domains. Our linguistic analysis reveals that LLM-generated texts exhibit smoother high-frequency and steeper low-frequency Zipf slopes, higher term specificity, and greater document-level diversity. These traits are aligned with LLMs being trained to optimize reader experience through diverse and precise expressions. Our study further explores whether term-based retrieval models demonstrate source bias, concluding that these models prioritize documents whose term distributions closely correspond to those of the queries, rather than displaying an inherent source bias. This work provides a foundation for understanding and addressing potential biases in term-based IR systems managing mixed-source content.
- Abstract(参考訳): 大規模言語モデル(LLM)がインターネットに流入するにつれて、情報検索(IR)システムは、人間が書いたテキストと機械生成したテキストを区別し、扱うという課題に直面している。
近年の研究では、ニューラルレトリバーはLLM生成コンテンツに対して好意的な傾向を示し、BM25のような古典的な用語ベースのレトリバーは人間による文書を好む傾向にあることが示唆されている。
本稿では,LLM生成コンテンツが項ベース検索モデルに与える影響について検討する。
言語学的解析により, LLM生成テキストはよりスムーズで低周波なZipf勾配, より長期的特異性, 文書レベルの多様性を示すことが明らかとなった。
これらの特徴は、多様かつ正確な表現を通じて読者エクスペリエンスを最適化するために、LLMがトレーニングされていることに一致している。
本研究は,条件付き検索モデルがソースバイアスを示すかどうかを考察し,これらのモデルが固有なソースバイアスを表示するのではなく,項分布がクエリと密接に対応している文書を優先していることを結論づける。
この研究は、混合ソースコンテンツを管理する用語ベースのIRシステムにおいて、潜在的なバイアスを理解し、対処するための基盤を提供する。
関連論文リスト
- Low-Perplexity LLM-Generated Sequences and Where To Find Them [0.0]
モデルにより生成された高確率テキストスパンの低パープレクティリティシーケンスの解析を主眼とした体系的アプローチを提案する。
私たちのパイプラインは、変性を避けながら、さまざまなトピックにわたる長いシーケンスを確実に抽出し、トレーニングデータのソースまで追跡します。
一致した人に対しては、ソース文書間で発生した事象の分布を定量化し、冗長リコールのスコープと性質を強調する。
論文 参考訳(メタデータ) (2025-07-02T15:58:51Z) - A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とLLMのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - ReMoDetect: Reward Models Recognize Aligned LLM's Generations [55.06804460642062]
大型言語モデル (LLM) は人間の好むテキストを生成する。
本稿では,これらのモデルで共有される共通特性について述べる。
報奨モデルの検出能力をさらに向上する2つのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:38:33Z) - Neural Retrievers are Biased Towards LLM-Generated Content [35.40318940303482]
大規模言語モデル(LLM)は情報検索(IR)のパラダイムに革命をもたらした。
これらのLCM生成した文書がIRシステムにどのように影響するかは、迫りつつも未解明の疑問である。
意外なことに, ニューラルネットワークによる検索モデルでは, LLM生成文書のランクが高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2023-10-31T14:42:23Z) - Enabling Large Language Models to Generate Text with Citations [37.64884969997378]
大規模言語モデル (LLM) は情報検索のツールとして広く使われている。
我々の目的は、LLMが引用文を生成できるようにし、その事実の正しさと妥当性を向上させることである。
自動LLMのCitation Evaluationのための最初のベンチマークであるALCEを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:53:49Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。