論文の概要: Perspectives on Large Language Models for Relevance Judgment
- arxiv url: http://arxiv.org/abs/2304.09161v1
- Date: Thu, 13 Apr 2023 13:08:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-23 04:18:40.732939
- Title: Perspectives on Large Language Models for Relevance Judgment
- Title(参考訳): 関連判断のための大規模言語モデルへの展望
- Authors: Guglielmo Faggioli, Laura Dietz, Charles Clarke, Gianluca Demartini,
Matthias Hagen, Claudia Hauff, Noriko Kando, Evangelos Kanoulas, Martin
Potthast, Benno Stein, Henning Wachsmuth
- Abstract要約: 大きな言語モデル(LLM)は、関係判断を支援することができると主張している。
多くの研究者は、これが信頼できる赤外線研究に繋がらないと考えている。
我々は、異なる関連判断戦略を分類できる人間と機械の協調スペクトルを考案する。
- 参考スコア(独自算出の注目度): 54.348390170317764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When asked, current large language models (LLMs) like ChatGPT claim that they
can assist us with relevance judgments. Many researchers think this would not
lead to credible IR research. In this perspective paper, we discuss possible
ways for LLMs to assist human experts along with concerns and issues that
arise. We devise a human-machine collaboration spectrum that allows
categorizing different relevance judgment strategies, based on how much the
human relies on the machine. For the extreme point of "fully automated
assessment", we further include a pilot experiment on whether LLM-based
relevance judgments correlate with judgments from trained human assessors. We
conclude the paper by providing two opposing perspectives - for and against the
use of LLMs for automatic relevance judgments - and a compromise perspective,
informed by our analyses of the literature, our preliminary experimental
evidence, and our experience as IR researchers.
We hope to start a constructive discussion within the community to avoid a
stale-mate during review, where work is dammed if is uses LLMs for evaluation
and dammed if it doesn't.
- Abstract(参考訳): ChatGPTのような現在の大規模言語モデル(LLM)は、関連する判断を支援することができると主張している。
多くの研究者は、これが信頼できる赤外線研究に繋がらないと考えている。
本稿では, LLMが人的専門家を支援できる可能性, 懸念事項, 課題について論じる。
我々は,人間がどの程度マシンに依存しているかに基づいて,異なる関連判断戦略を分類できる,人間と機械の協調スペクトルを考案する。
完全自動評価」の極端に、llmに基づく妥当性判断が訓練された人間評価者の判断と相関するかどうかのパイロット実験も実施する。
論文の結論は, 自動関連判断におけるLLMの使用と反対の2つの視点と, 文献の分析, 予備実験証拠, IR研究者としての経験から得られた妥協視点を提示することによって, 論文を締めくくった。
評価にllmを使用し、そうでなければ弱められる場合、作業は弱められ、レビューの間、停滞する仲間を避けるために、コミュニティ内で建設的な議論を始めることを願っています。
関連論文リスト
- Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges [6.609843448260634]
審査員として機能する様々な大規模言語モデル(LLM)の性能について検討する。
LLMの客観的知識推論のベンチマークとしてTriviaQAを利用する。
Llama-370B と GPT-4 Turbo はどちらも人間に優れた整合性があることが判明した。
論文 参考訳(メタデータ) (2024-06-18T13:49:54Z) - Beyond Relevance: Evaluate and Improve Retrievers on Perspective Awareness [56.42192735214931]
検索者は、ドキュメントとクエリ間のセマンティックな関連性に頼るだけでなく、ユーザクエリの背後にある微妙な意図や視点を認識することも期待されている。
本研究では,検索者がクエリの異なる視点を認識し,応答できるかどうかを検討する。
我々は,現在の検索者はクエリにおいて微妙に異なる視点に対する認識が限られており,特定の視点に偏りがあることを示す。
論文 参考訳(メタデータ) (2024-05-04T17:10:00Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Equal Confusion Fairness: Measuring Group-Based Disparities in Automated
Decision Systems [5.076419064097733]
本稿では,公正度の自動判定システムをチェックするための等混乱公正度試験と,不公平度を定量化するための新しい混乱パリティ誤差を提案する。
全体として、ここで提供される方法とメトリクスは、より広範な説明責任評価の一環として、自動決定システムの公正性を評価することができる。
論文 参考訳(メタデータ) (2023-07-02T04:44:19Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - AI for human assessment: What do professional assessors need? [33.88509725285237]
このケーススタディは、専門家が人的アセスメントにおける意思決定を支援することを目的としており、アセスメント担当者とのインタビューを行い、特定の職種に対する適性を評価する。
評価の非言語的手がかりを抽出できる計算システムは、意思決定を支援するという点で評価者にとって有益である。
本研究では,顔のキーポイント,ポーズ,頭部ポーズ,視線といったマルチモーダルな行動特徴を用いた教師なし異常検出アルゴリズムに基づくシステムを開発した。
論文 参考訳(メタデータ) (2022-04-18T03:35:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。