Fugu-MT 論文翻訳(概要): Perspectives on Large Language Models for Relevance Judgment

論文の概要: Perspectives on Large Language Models for Relevance Judgment

arxiv url: http://arxiv.org/abs/2304.09161v2
Date: Sat, 18 Nov 2023 18:16:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-22 20:03:01.440243
Title: Perspectives on Large Language Models for Relevance Judgment
Title（参考訳）: 関連判断のための大規模言語モデルへの展望
Authors: Guglielmo Faggioli, Laura Dietz, Charles Clarke, Gianluca Demartini, Matthias Hagen, Claudia Hauff, Noriko Kando, Evangelos Kanoulas, Martin Potthast, Benno Stein, Henning Wachsmuth
Abstract要約: 大型言語モデル(LLM)は、関連判断を支援することができると主張している。自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
参考スコア（独自算出の注目度）: 56.935731584323996
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: When asked, large language models (LLMs) like ChatGPT claim that they can assist with relevance judgments but it is not clear whether automated judgments can reliably be used in evaluations of retrieval systems. In this perspectives paper, we discuss possible ways for LLMs to support relevance judgments along with concerns and issues that arise. We devise a human--machine collaboration spectrum that allows to categorize different relevance judgment strategies, based on how much humans rely on machines. For the extreme point of "fully automated judgments", we further include a pilot experiment on whether LLM-based relevance judgments correlate with judgments from trained human assessors. We conclude the paper by providing opposing perspectives for and against the use of~LLMs for automatic relevance judgments, and a compromise perspective, informed by our analyses of the literature, our preliminary experimental evidence, and our experience as IR researchers.
Abstract（参考訳）: ChatGPTのような大規模言語モデル(LLM)は、関連判断を支援することができると主張しているが、自動判断が検索システムの評価に確実に利用できるかどうかは不明である。本稿では, LLM が関連する判断を, 懸念や問題とともに支援できる可能性について論じる。我々は,人間が機械にどれだけ依存しているかに基づいて,異なる関連性判断戦略を分類できる人間と機械の協調スペクトルを考案する。完全に自動化された判断」の極端には、訓練された人間評価者の判断とllmベースの関連性判断が相関するかどうかのパイロット実験も含む。論文は,自動関連判断におけるLLMの使用に対する反対の視点と,文献の分析,予備的実験証拠,IR研究者としての経験から得られた妥協視点を提供することで,結論付けた。

関連論文リスト

When LLM Judges Inflate Scores: Exploring Overrating in Relevance Assessment [29.603396943658428]
大型言語モデル(LLM)は、人間の判断のためのプロキシとして使用できる。モデルは、真に基礎となる情報要求を満たさない通路に、インフレータブルな関連度スコアを常に割り当てていることを示す。実験の結果,LSMによる相対性判定は通路長や表面の語彙的手がかりに非常に敏感であることが示唆された。
論文参考訳（メタデータ） (2026-02-19T08:37:21Z)
The Effect of Document Summarization on LLM-Based Relevance Judgments [8.796251181920914]
大規模言語モデル(LLM)は、最近自動評価器として提案されている。テキスト要約がLCMに基づく判断の信頼性に与える影響について検討する。その結果,要約に基づく判断は,システムランキングの完全文書判定に匹敵する安定性を達成できることがわかった。
論文参考訳（メタデータ） (2025-12-05T00:26:13Z)
Do Before You Judge: Self-Reference as a Pathway to Better LLM Evaluation [22.409170147732464]
LLM-as-Judgeフレームワークは、AI評価でますます人気がある。モデルの生成と判断能力の関係に関する研究結果は相容れないままである。本稿では,モデル自身の回答を参照として活用する自己参照型評価戦略を提案する。
論文参考訳（メタデータ） (2025-09-24T08:32:45Z)
Skewed Score: A statistical framework to assess autograders [2.9645858732618238]
LLM-as-a-judge"あるいはオートグラファーは、人間の評価に代わるスケーラブルな代替手段を提供する。彼らは様々な信頼性を示し、体系的なバイアスを示すかもしれない。そこで本稿では,研究者が自動分解器を同時に評価できる統計フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-04T18:45:10Z)
Arbiters of Ambivalence: Challenges of Using LLMs in No-Consensus Tasks [52.098988739649705]
本研究では, LLMのバイアスと限界について, 応答生成器, 判定器, 討論器の3つの役割について検討した。我々は、様々な先行的曖昧なシナリオを含む例をキュレートすることで、合意なしのベンチマークを開発する。以上の結果から, LLMは, オープンエンドの回答を生成する際に, 曖昧な評価を行うことができる一方で, 審査員や討論者として採用する場合は, 合意なしのトピックにスタンスを取る傾向が示唆された。
論文参考訳（メタデータ） (2025-05-28T01:31:54Z)
How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文参考訳（メタデータ） (2025-04-10T16:14:55Z)
Judging the Judges: A Collection of LLM-Generated Relevance Judgements [37.103230004631996]
本稿では,SIGIR 2024におけるLLMJudgeの大規模自動妥当性評価の結果をベンチマークし,報告する。 8つの国際チームが作成したTREC 2023ディープラーニングトラック関連判定のラベルを42 LLMで作成し、ベンチマークする。
論文参考訳（メタデータ） (2025-02-19T17:40:32Z)
Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。 LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文参考訳（メタデータ） (2025-01-14T14:49:14Z)
On the Statistical Significance with Relevance Assessments of Large Language Models [2.9180406633632523]
我々は,文書の関連性をラベル付けするために大規模言語モデルを使用し,新しい検索テストコレクションを構築する。以上の結果から, LLM判定は有意差の大部分を検出できる一方で, 許容数の偽陽性を維持していることが明らかとなった。本研究は, LLM判定による統計的試験結果の評価における一歩である。
論文参考訳（メタデータ） (2024-11-20T11:19:35Z)
A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文参考訳（メタデータ） (2024-11-13T01:12:35Z)
JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文参考訳（メタデータ） (2024-10-31T18:43:12Z)
Adversarial Multi-Agent Evaluation of Large Language Models through Iterative Debates [0.0]
本稿では,対話エージェントのアンサンブル内で,大規模言語モデル(LLM)を提唱者として解釈するフレームワークを提案する。このアプローチは、従来の人間ベースの評価や自動メトリクスと比較して、よりダイナミックで包括的な評価プロセスを提供します。
論文参考訳（メタデータ） (2024-10-07T00:22:07Z)
From Calculation to Adjudication: Examining LLM judges on Mathematical Reasoning Tasks [11.01213914485374]
数学的推論タスクにおいて,大規模言語モデル (LLM) について検討する。本分析により,判定性能と候補モデルタスク性能との間に強い相関関係が明らかになった。本研究では,各モデルのタスク性能などの統計データを用いて,判定性能の予測を行うことが可能であることを示す。
論文参考訳（メタデータ） (2024-09-06T10:09:41Z)
Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。 BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文参考訳（メタデータ） (2024-08-17T16:01:45Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。 LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。 Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文参考訳（メタデータ） (2024-03-25T17:11:28Z)
Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文参考訳（メタデータ） (2023-05-24T06:19:14Z)
Investigating Fairness Disparities in Peer Review: A Language Model Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文参考訳（メタデータ） (2022-11-07T16:19:42Z)
AI for human assessment: What do professional assessors need? [33.88509725285237]
このケーススタディは、専門家が人的アセスメントにおける意思決定を支援することを目的としており、アセスメント担当者とのインタビューを行い、特定の職種に対する適性を評価する。評価の非言語的手がかりを抽出できる計算システムは、意思決定を支援するという点で評価者にとって有益である。本研究では,顔のキーポイント,ポーズ,頭部ポーズ,視線といったマルチモーダルな行動特徴を用いた教師なし異常検出アルゴリズムに基づくシステムを開発した。
論文参考訳（メタデータ） (2022-04-18T03:35:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。