論文の概要: Perspectives on Large Language Models for Relevance Judgment
- arxiv url: http://arxiv.org/abs/2304.09161v2
- Date: Sat, 18 Nov 2023 18:16:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 20:03:01.440243
- Title: Perspectives on Large Language Models for Relevance Judgment
- Title(参考訳): 関連判断のための大規模言語モデルへの展望
- Authors: Guglielmo Faggioli, Laura Dietz, Charles Clarke, Gianluca Demartini,
Matthias Hagen, Claudia Hauff, Noriko Kando, Evangelos Kanoulas, Martin
Potthast, Benno Stein, Henning Wachsmuth
- Abstract要約: 大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
- 参考スコア(独自算出の注目度): 56.935731584323996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When asked, large language models (LLMs) like ChatGPT claim that they can
assist with relevance judgments but it is not clear whether automated judgments
can reliably be used in evaluations of retrieval systems. In this perspectives
paper, we discuss possible ways for LLMs to support relevance judgments along
with concerns and issues that arise. We devise a human--machine collaboration
spectrum that allows to categorize different relevance judgment strategies,
based on how much humans rely on machines. For the extreme point of "fully
automated judgments", we further include a pilot experiment on whether
LLM-based relevance judgments correlate with judgments from trained human
assessors. We conclude the paper by providing opposing perspectives for and
against the use of~LLMs for automatic relevance judgments, and a compromise
perspective, informed by our analyses of the literature, our preliminary
experimental evidence, and our experience as IR researchers.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、関連判断を支援することができると主張しているが、自動判断が検索システムの評価に確実に利用できるかどうかは不明である。
本稿では, LLM が関連する判断を, 懸念や問題とともに支援できる可能性について論じる。
我々は,人間が機械にどれだけ依存しているかに基づいて,異なる関連性判断戦略を分類できる人間と機械の協調スペクトルを考案する。
完全に自動化された判断」の極端には、訓練された人間評価者の判断とllmベースの関連性判断が相関するかどうかのパイロット実験も含む。
論文は,自動関連判断におけるLLMの使用に対する反対の視点と,文献の分析,予備的実験証拠,IR研究者としての経験から得られた妥協視点を提供することで,結論付けた。
関連論文リスト
- A Literature Review of Literature Reviews in Pattern Analysis and
Machine Intelligence [62.90682521144006]
この分析は、様々な観点からPAMI分野のレビューを徹底的にレビューすることを目的としている。
書評を自動評価するために,大規模言語モデルを用いた書評指標を提案する。
新たに登場したAI生成の文献レビューも評価されている。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Bias and Fairness in Large Language Models: A Survey [76.65471160523444]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Equal Confusion Fairness: Measuring Group-Based Disparities in Automated
Decision Systems [5.076419064097733]
本稿では,公正度の自動判定システムをチェックするための等混乱公正度試験と,不公平度を定量化するための新しい混乱パリティ誤差を提案する。
全体として、ここで提供される方法とメトリクスは、より広範な説明責任評価の一環として、自動決定システムの公正性を評価することができる。
論文 参考訳(メタデータ) (2023-07-02T04:44:19Z) - Using Natural Language Explanations to Rescale Human Judgments [89.21530406247142]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Evaluation Gaps in Machine Learning Practice [13.963766987258161]
実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。
評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。
これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
論文 参考訳(メタデータ) (2022-05-11T04:00:44Z) - AI for human assessment: What do professional assessors need? [33.88509725285237]
このケーススタディは、専門家が人的アセスメントにおける意思決定を支援することを目的としており、アセスメント担当者とのインタビューを行い、特定の職種に対する適性を評価する。
評価の非言語的手がかりを抽出できる計算システムは、意思決定を支援するという点で評価者にとって有益である。
本研究では,顔のキーポイント,ポーズ,頭部ポーズ,視線といったマルチモーダルな行動特徴を用いた教師なし異常検出アルゴリズムに基づくシステムを開発した。
論文 参考訳(メタデータ) (2022-04-18T03:35:37Z) - Experts, Errors, and Context: A Large-Scale Study of Human Evaluation
for Machine Translation [19.116396693370422]
本稿では,多次元品質指標フレームワークに基づく明示的誤り分析に基づく評価手法を提案する。
我々はこれまでで最大のMQM研究を行い、WMT 2020の共通タスクから上位システムの出力を2つの言語ペアで評価した。
得られたデータを広範囲に分析し,wmtの群集作業員が確立したシステムとは,評価システムのランキングが実質的に異なる点を見出した。
論文 参考訳(メタデータ) (2021-04-29T16:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。