論文の概要: Why Large Language Models can Secretly Outperform Embedding Similarity in Information Retrieval
- arxiv url: http://arxiv.org/abs/2603.08077v1
- Date: Mon, 09 Mar 2026 08:15:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.691605
- Title: Why Large Language Models can Secretly Outperform Embedding Similarity in Information Retrieval
- Title(参考訳): 大規模言語モデルが情報検索における類似性を秘かに上回る理由
- Authors: Matei Benescu, Ivo Pascal de Jong,
- Abstract要約: 類似性は関連性の短い解釈であると主張する。
LLM-RJS(推論付き)は、この制限を克服することで、Neural Embedding Retrieval Systems(NERS)を上回る可能性がある。
また,LLM-RJSにおける誤陽性は,近視性によるアノテーションの誤りが主である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the emergence of Large Language Models (LLMs), new methods in Information Retrieval are available in which relevance is estimated directly through language understanding and reasoning, instead of embedding similarity. We argue that similarity is a short-sighted interpretation of relevance, and that LLM-Based Relevance Judgment Systems (LLM-RJS) (with reasoning) have potential to outperform Neural Embedding Retrieval Systems (NERS) by overcoming this limitation. Using the TREC-DL 2019 passage retrieval dataset, we compare various LLM-RJS with NERS, but observe no noticeable improvement. Subsequently, we analyze the impact of reasoning by comparing LLM-RJS with and without reasoning. We find that human annotations also suffer from short-sightedness, and that false-positives in the reasoning LLM-RJS are primarily mistakes in annotations due to short-sightedness. We conclude that LLM-RJS do have the ability to address the short-sightedness limitation in NERS, but that this cannot be evaluated with standard annotated relevance datasets.
- Abstract(参考訳): LLM(Large Language Models)の出現に伴い,情報検索における新しい手法が利用可能になった。
我々は、類似性は関連性の近視的解釈であり、LLM-based Relevance Judgment Systems (LLM-RJS) は、この制限を克服することで、Neural Embedding Retrieval Systems (NERS) を上回る可能性があると論じる。
TREC-DL 2019パス検索データセットを用いて,様々なLLM-RJSとNERSを比較したが,顕著な改善は得られなかった。
次に, LLM-RJSと推論の有無を比較し, 推論の影響を解析した。
また,LLM-RJSにおける誤陽性は,近視性によるアノテーションの誤りが主である。
LLM-RJSはNERSの近視性制限に対処する能力を持っているが、標準的な注釈付き関連データセットでは評価できない。
関連論文リスト
- Improving Implicit Discourse Relation Recognition with Natural Language Explanations from LLMs [6.696390269864987]
Implicit Discourse Relation Recognition (IDRR) は、深い意味理解を必要とするため、依然として困難な課題である。
大規模言語モデル(LLM)の最近の進歩は、深い言語理解と自然言語説明の生成において強力な推論能力を示している。
本稿では, LLMの推論能力を軽量IDRRモデルに抽出し, 性能と解釈性の両方を改善するための, 簡便かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2026-02-25T10:28:45Z) - Query-Document Dense Vectors for LLM Relevance Judgment Bias Analysis [4.719505127252616]
大規模言語モデル (LLM) は、情報検索 (IR) 評価収集のための関連評価器として使われている。
我々は、LLMが平均的にどれだけ良いかを単に理解するのではなく、関係を判断する際に体系的な誤りを犯すかどうかを理解することを目的としている。
クエリドキュメント(Q-D)ペアを結合意味空間に埋め込むクラスタリングベースのフレームワークを導入する。
論文 参考訳(メタデータ) (2026-01-05T03:02:33Z) - Redefining Retrieval Evaluation in the Era of LLMs [20.75884808285362]
従来の情報検索(IR)メトリクスは、人間が下位階級への注意を減らした文書を逐次調査することを前提としている。
この仮定は、Large Language Models (LLM) によって検索結果が消費される検索拡張生成(RAG)システムにおいて破られる。
本稿では,関連するパスの肯定的な寄与と,注意をそらすパスのネガティブな影響の両方を定量化するユーティリティベースのアノテーションスキーマを提案する。
論文 参考訳(メタデータ) (2025-10-24T13:17:00Z) - Framework for Machine Evaluation of Reasoning Completeness in Large Language Models For Classification Tasks [0.0]
本稿では、説明の完全性のためのRAS-Reasoning Alignmentを紹介する。
我々は,広く使用されている4つのテキスト分類データセット,WIKI ONTOLOGY, AG NEWS, IMDB, GOEMOTIONSを分析した。
正解予測はサポート特徴のカバレッジが高く,正解予測は矛盾する特徴のカバレッジの増大と関連していることを示す。
論文 参考訳(メタデータ) (2025-10-23T20:22:22Z) - Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - Towards Lighter and Robust Evaluation for Retrieval Augmented Generation [1.631189594086952]
本稿では,RAG幻覚評価のためのオープンウェイトモデルの興味を示す研究を提案する。
我々は、より小さく、量子化されたLCMを用いて、アクセス可能で解釈可能な計量を提供する軽量なアプローチを開発する。
このスコアは、意思決定の信頼性に疑問を呈し、新しいAUCメトリクスを開発するためのしきい値を探ることを可能にする。
論文 参考訳(メタデータ) (2025-03-20T13:58:32Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。