論文の概要: Do Large Language Models Favor Recent Content? A Study on Recency Bias in LLM-Based Reranking
- arxiv url: http://arxiv.org/abs/2509.11353v1
- Date: Sun, 14 Sep 2025 17:11:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.044239
- Title: Do Large Language Models Favor Recent Content? A Study on Recency Bias in LLM-Based Reranking
- Title(参考訳): 大規模言語モデルは近年の内容を好んでいるか? : LLMに基づくリグレードにおける頻度バイアスに関する研究
- Authors: Hanpei Fang, Sijie Tao, Nuo Chen, Kai-Xin Chang, Tetsuya Sakai,
- Abstract要約: 人工的な出版日を予測して,大規模言語モデルが新しい文書を暗黙的に好むかどうかを検討する。
7つのモデル(GPT-3.5-turbo、GPT-4o、GPT-4、LLaMA-3 8B/70B、Qwen-2.5 7B/72B)で「フレッシュ」パスは一貫して推進される。
より大きなモデルは効果を弱めるが、それを取り除くものはない。
- 参考スコア(独自算出の注目度): 13.68079542871802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed in information systems, including being used as second-stage rerankers in information retrieval pipelines, yet their susceptibility to recency bias has received little attention. We investigate whether LLMs implicitly favour newer documents by prepending artificial publication dates to passages in the TREC Deep Learning passage retrieval collections in 2021 (DL21) and 2022 (DL22). Across seven models, GPT-3.5-turbo, GPT-4o, GPT-4, LLaMA-3 8B/70B, and Qwen-2.5 7B/72B, "fresh" passages are consistently promoted, shifting the Top-10's mean publication year forward by up to 4.78 years and moving individual items by as many as 95 ranks in our listwise reranking experiments. Although larger models attenuate the effect, none eliminate it. We also observe that the preference of LLMs between two passages with an identical relevance level can be reversed by up to 25% on average after date injection in our pairwise preference experiments. These findings provide quantitative evidence of a pervasive recency bias in LLMs and highlight the importance of effective bias-mitigation strategies.
- Abstract(参考訳): 大規模言語モデル(LLM)は情報検索パイプラインにおいて第2段階のリランカーとして使用されるなど、情報システムにますます導入されている。
我々は,2021年(DL21年)と2022年(DL22年)のTRECディープラーニングパス検索コレクションに,人工的な公開日を記入して,新たな文書を暗黙的に好んでいるかを検討する。
7つのモデル(GPT-3.5-turbo, GPT-4o, GPT-4, LLaMA-3 8B/70B, Qwen-2.5 7B/72B)で「フレッシュ」パスは一貫して推進され、トップ10の平均発行年は4.78年、各項目は95位まで移動された。
より大きなモデルは効果を弱めるが、それを取り除くものはない。
また,同レベルの2つの通路間のLLMの選好は,2つの選好実験において,日時注入後の平均で最大25%の逆転が可能であることも観察した。
これらの知見は, LLMの広範性再発バイアスの定量的証拠であり, 効果的なバイアス緩和戦略の重要性を強調している。
関連論文リスト
- Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - Do RAG Systems Suffer From Positional Bias? [13.06567550060387]
我々は、最先端の検索パイプラインが、関連するパスを検索する一方で、体系的に非常に気を散らすパイプラインをトップにもたらす方法を示す。
以上の結果から, LLM位置選択に基づいて経路を再構成しようとする高度戦略は, ランダムシャッフルよりも性能が良くないことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-21T14:18:01Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - Re-Ranking Step by Step: Investigating Pre-Filtering for Re-Ranking with Large Language Models [5.0490573482829335]
大規模言語モデル(LLM)は、さまざまなゼロショット機能を備えた多種多様な自然言語処理タスクに革命をもたらしている。
本稿では、情報検索(IR)における通過前の事前フィルタリングステップの使用について検討する。
実験の結果, この事前フィルタリングにより, LLMは再ランクタスクにおいて, 性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-26T20:12:24Z) - Can We Use Large Language Models to Fill Relevance Judgment Holes? [9.208308067952155]
ホールを埋めるためにLarge Language Models(LLM)を利用することで、既存のテストコレクションを拡張するための最初のステップを取ります。
人間+自動判断を用いた場合, 相関関係は著しく低くなる。
論文 参考訳(メタデータ) (2024-05-09T07:39:19Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。