論文の概要: Query-Document Dense Vectors for LLM Relevance Judgment Bias Analysis
- arxiv url: http://arxiv.org/abs/2601.01751v1
- Date: Mon, 05 Jan 2026 03:02:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.745484
- Title: Query-Document Dense Vectors for LLM Relevance Judgment Bias Analysis
- Title(参考訳): LLM関連判断バイアス解析のための問合せドキュメンテーション線量ベクトル
- Authors: Samaneh Mohtadi, Gianluca Demartini,
- Abstract要約: 大規模言語モデル (LLM) は、情報検索 (IR) 評価収集のための関連評価器として使われている。
我々は、LLMが平均的にどれだけ良いかを単に理解するのではなく、関係を判断する際に体系的な誤りを犯すかどうかを理解することを目的としている。
クエリドキュメント(Q-D)ペアを結合意味空間に埋め込むクラスタリングベースのフレームワークを導入する。
- 参考スコア(独自算出の注目度): 4.719505127252616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have been used as relevance assessors for Information Retrieval (IR) evaluation collection creation due to reduced cost and increased scalability as compared to human assessors. While previous research has looked at the reliability of LLMs as compared to human assessors, in this work, we aim to understand if LLMs make systematic mistakes when judging relevance, rather than just understanding how good they are on average. To this aim, we propose a novel representational method for queries and documents that allows us to analyze relevance label distributions and compare LLM and human labels to identify patterns of disagreement and localize systematic areas of disagreement. We introduce a clustering-based framework that embeds query-document (Q-D) pairs into a joint semantic space, treating relevance as a relational property. Experiments on TREC Deep Learning 2019 and 2020 show that systematic disagreement between humans and LLMs is concentrated in specific semantic clusters rather than distributed randomly. Query-level analyses reveal recurring failures, most often in definition-seeking, policy-related, or ambiguous contexts. Queries with large variation in agreement across their clusters emerge as disagreement hotspots, where LLMs tend to under-recall relevant content or over-include irrelevant material. This framework links global diagnostics with localized clustering to uncover hidden weaknesses in LLM judgments, enabling bias-aware and more reliable IR evaluation.
- Abstract(参考訳): 大規模言語モデル (LLM) は, コスト削減とスケーラビリティ向上により, 情報検索 (IR) 評価収集の妥当性評価器として利用されてきた。
従来の研究では,LLMの信頼性を人間の評価者と比較して検討しているが,本研究では,LLMが平均値の正確さを単に理解するのではなく,妥当性を判断する上で,体系的な誤りを犯すかどうかを理解することを目的としている。
そこで本研究では,関連ラベルの分布を解析し,LLMと人間ラベルを比較し,不一致のパターンを特定し,系統的な不一致領域をローカライズする,クエリと文書の表現方法を提案する。
本稿では,クエリドキュメント(Q-D)ペアを結合意味空間に埋め込んだクラスタリングベースのフレームワークを紹介し,関連性を関係性として扱う。
TREC Deep Learning 2019と2020の実験では、人間とLLM間の系統的な不一致はランダムに分散するのではなく、特定のセマンティッククラスタに集中している。
クエリレベルの分析は、多くの場合、定義検索、ポリシー関連、曖昧なコンテキストにおいて、繰り返し発生する障害を明らかにします。
LLMは関連物質を過度にリコールするか、無関係物質を過度に含まない傾向にある。
このフレームワークは、グローバル診断と局所クラスタリングを結びつけて、LLM判定の隠れた弱点を解明し、バイアス認識とより信頼性の高いIR評価を可能にする。
関連論文リスト
- How Do LLM-Generated Texts Impact Term-Based Retrieval Models? [76.92519309816008]
本稿では,大規模言語モデル(LLM)が項ベース検索モデルに与える影響について検討する。
言語学的解析により,LLM生成テキストはよりスムーズで低周波なZipf勾配を示すことが明らかとなった。
本研究は,項分布がクエリと密接に一致した文書を優先して,項ベース検索モデルがソースバイアスを示すかどうかを考察する。
論文 参考訳(メタデータ) (2025-08-25T06:43:27Z) - When LLMs Disagree: Diagnosing Relevance Filtering Bias and Retrieval Divergence in SDG Search [0.0]
大規模言語モデル(LLM)は、情報検索パイプラインに文書関連ラベルを割り当てるのにますます使われている。
LLMは境界線のケースにしばしば反対し、そのような不一致が下流の検索にどのように影響するかという懸念を提起する。
モデル不一致は体系的であり、ランダムではないことを示す。
本稿では,検索評価における分析対象として分類不一致を用いることを提案する。
論文 参考訳(メタデータ) (2025-07-02T20:53:51Z) - Relative Bias: A Comparative Framework for Quantifying Bias in LLMs [29.112649816695203]
相対バイアス(Relative Bias)は、LLMの振る舞いが特定のターゲットドメイン内の他のLLMとどのようにずれているかを評価するために設計された手法である。
本稿では,(1)埋め込み空間上の文表現を通して相対的バイアスパターンをキャプチャする埋め込み変換解析と,(2)言語モデルを用いて出力を相対的に評価するLLM-as-a-Judgeという2つの相補的手法を紹介する。
検証のための統計的テストに続くバイアスとアライメントのシナリオに関するいくつかのケーススタディに我々のフレームワークを適用し、この2つのスコアリング手法の間に強い整合性を見出した。
論文 参考訳(メタデータ) (2025-05-22T01:59:54Z) - Benchmarking LLM-based Relevance Judgment Methods [15.255877686845773]
大規模言語モデル(LLM)は、学術的、産業的にもますます多くデプロイされている。
我々は,2値関係判定,次級関係評価,相互選好に基づく手法,および2つのナゲットに基づく評価方法など,複数のLCMに基づく関連性評価手法を体系的に比較した。
データリリースには、オープンソース(Llama3.2b)と商用(gpt-4o)モデルの両方で生成された関連判断が含まれています。
論文 参考訳(メタデータ) (2025-04-17T01:13:21Z) - How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。
メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文 参考訳(メタデータ) (2025-04-10T16:14:55Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。
LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文 参考訳(メタデータ) (2025-01-14T14:49:14Z) - Limitations of Automatic Relevance Assessments with Large Language Models for Fair and Reliable Retrieval Evaluation [2.9180406633632523]
大規模言語モデル(LLM)は,自動関連性評価ツールとして注目されている。
近年の研究では、LLMに基づく評価が、人為的判断と高いシステムランキングの相関をもたらすことが示されている。
我々は,LLMによる判断が,上位評価システム間の順位差をいかに保っているか,また,人間の判断として相互に重要な評価を保っているかを検討する。
論文 参考訳(メタデータ) (2024-11-20T11:19:35Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。