Fugu-MT 論文翻訳(概要): Generative Information Retrieval Evaluation

論文の概要: Generative Information Retrieval Evaluation

arxiv url: http://arxiv.org/abs/2404.08137v3
Date: Thu, 30 Jan 2025 00:52:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-31 22:50:03.786046
Title: Generative Information Retrieval Evaluation
Title（参考訳）: 生成的情報検索評価
Authors: Marwah Alaofi, Negar Arabzadeh, Charles L. A. Clarke, Mark Sanderson,
Abstract要約: 本稿では,2つの異なる相互関連視点から生成情報検索の評価を検討する。まず、大規模言語モデル(LLM)自体が急速に評価ツールになりつつある。第2に,新興LLMに基づく生成情報検索(GenIR)システムの評価について検討する。
参考スコア（独自算出の注目度）: 32.38444700888198
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this chapter, we consider generative information retrieval evaluation from two distinct but interrelated perspectives. First, large language models (LLMs) themselves are rapidly becoming tools for evaluation, with current research indicating that LLMs may be superior to crowdsource workers and other paid assessors on basic relevance judgement tasks. We review past and ongoing related research, including speculation on the future of shared task initiatives, such as TREC, and a discussion on the continuing need for human assessments. Second, we consider the evaluation of emerging LLM-based generative information retrieval (GenIR) systems, including retrieval augmented generation (RAG) systems. We consider approaches that focus both on the end-to-end evaluation of GenIR systems and on the evaluation of a retrieval component as an element in a RAG system. Going forward, we expect the evaluation of GenIR systems to be at least partially based on LLM-based assessment, creating an apparent circularity, with a system seemingly evaluating its own output. We resolve this apparent circularity in two ways: 1) by viewing LLM-based assessment as a form of "slow search", where a slower IR system is used for evaluation and training of a faster production IR system; and 2) by recognizing a continuing need to ground evaluation in human assessment, even if the characteristics of that human assessment must change.
Abstract（参考訳）: 本章では,2つの異なる相互関連視点から生成的情報検索の評価について考察する。第一に、大規模言語モデル(LLM)自体が急速に評価ツールとなりつつあり、近年の研究では、LLMはクラウドソースの労働者や、基本的な関連性判断タスクの有償アセスメントよりも優れていることが示されている。我々は、TRECのような共有タスクイニシアチブの将来に関する憶測や、人間の評価の必要性に関する議論を含む、過去および現在進行中の研究をレビューする。第2に,新たなLLMベース生成情報検索システム (GenIR) の評価について検討する。我々は、GenIRシステムのエンドツーエンド評価と、RAGシステムにおける要素としての検索コンポーネントの評価の両方に焦点を当てたアプローチを検討する。今後,GenIRシステムの評価は,少なくとも部分的にはLCMに基づく評価に基づいて行われることが期待されている。この明らかな円度を2つの方法で解決する。 1) LLMに基づく評価を「スローサーチ」の形式として見ることにより、より遅いIRシステムを用いて、より高速な生産IRシステムの評価と訓練を行う。 2) 人的評価において, 人的評価の特徴が変化しても, 基礎的評価の必要性を認識させることにより, 人的評価の特性を変化させることができた。

関連論文リスト

Evaluation and Benchmarking of LLM Agents: A Survey [2.75311233296471]
本調査では,既存の作業を評価目的に沿って整理する2次元分類法を紹介する。データへのロールベースのアクセスなど、企業固有の課題を強調します。また、総合的で、より現実的で、スケーラブルな評価を含む、将来の研究の方向性を特定します。
論文参考訳（メタデータ） (2025-07-29T04:57:02Z)
Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets [0.0]
近年,RAG(Retrieval-Augmented Generation)が著しく進歩している。 RAGの複雑さは、体系的な評価と品質向上に重大な課題をもたらす。本研究は,63の学術論文を体系的にレビューし,最新のRAG評価手法を概観する。
論文参考訳（メタデータ） (2025-04-28T08:22:19Z)
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks [229.73714829399802]
この調査は、大規模言語モデルの台頭が評価に役立っている中核的な課題を調査する。 i) タスク固有のものから能力に基づく評価へと、知識、推論、指示に従うこと、マルチモーダル理解、安全性といったコア能力に関するベンチマークを再編成する。この問題と、上記の2つのトランジションの中核的な課題を、メソッド、データセット、評価器、メトリクスの観点から検討する。
論文参考訳（メタデータ） (2025-04-26T07:48:52Z)
LLM-based relevance assessment still can't replace human relevance assessment [12.829823535454505]
近年の研究では、情報検索における関連性評価のための大規模言語モデル(LLM)が、人間の判断に匹敵する評価をもたらすことが示唆されている。 Upadhyayらは、LLMに基づく関連性評価は、TRECスタイルの評価における従来の人間関連性評価を完全に置き換えることができると主張している。本稿ではこの主張を批判的に検証し、この結論の妥当性を損なう実践的・理論的制約を強調した。
論文参考訳（メタデータ） (2024-12-22T20:45:15Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
Limitations of Automatic Relevance Assessments with Large Language Models for Fair and Reliable Retrieval Evaluation [2.9180406633632523]
大規模言語モデル(LLM)は,自動関連性評価ツールとして注目されている。近年の研究では、LLMに基づく評価が、人為的判断と高いシステムランキングの相関をもたらすことが示されている。我々は,LLMによる判断が,上位評価システム間の順位差をいかに保っているか,また,人間の判断として相互に重要な評価を保っているかを検討する。
論文参考訳（メタデータ） (2024-11-20T11:19:35Z)
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。 CompassJudger-1は、優れた汎用性を示す汎用LLMである。 textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文参考訳（メタデータ） (2024-10-21T17:56:51Z)
ReIFE: Re-evaluating Instruction-Following Evaluation [105.75525154888655]
本稿では,25基のLDMと15の提案された評価プロトコルを含む,命令の完全なメタ評価について述べる。評価により,高いロバスト性を有する最良性能のLCMと評価プロトコルを同定できる。
論文参考訳（メタデータ） (2024-10-09T17:14:50Z)
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。 LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。 Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文参考訳（メタデータ） (2024-03-25T17:11:28Z)
Evaluating Generative Ad Hoc Information Retrieval [58.800799175084286]
生成検索システムは、しばしばクエリに対する応答として、接地された生成されたテキストを直接返す。このような生成的アドホック検索を適切に評価するには,テキスト応答の有用性の定量化が不可欠である。
論文参考訳（メタデータ） (2023-11-08T14:05:00Z)
Hierarchical Evaluation Framework: Best Practices for Human Evaluation [17.91641890651225]
NLPハマーにおける広く受け入れられている評価基準の欠如は、異なるシステム間での公正な比較と、普遍的な評価基準の確立である。我々は,NLPシステムの性能をより包括的に表現するための,独自の階層的評価フレームワークを開発した。今後の課題として,NLPシステムの評価を行う上で,提案するフレームワークの時間節約効果について検討する。
論文参考訳（メタデータ） (2023-10-03T09:46:02Z)
Style Over Substance: Evaluation Biases for Large Language Models [17.13064447978519]
本研究では,大規模言語モデル(LLM)とともに,クラウドソースおよびエキスパートアノテータの挙動について検討する。この結果から, 事実的誤りに対する回答は, 短すぎる, 文法的誤りを含む回答よりも好意的に評価され, 評価過程の偏りが示唆された。評価面を1つのスコアにマージするのではなく,複数の次元にまたがるマシン生成テキストを独立に評価することを提案する。
論文参考訳（メタデータ） (2023-07-06T14:42:01Z)
Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文参考訳（メタデータ） (2022-12-15T17:26:05Z)
Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。 ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-02-20T03:29:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。