論文の概要: Perspectives on Large Language Models for Relevance Judgment
- arxiv url: http://arxiv.org/abs/2304.09161v1
- Date: Thu, 13 Apr 2023 13:08:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-23 04:18:40.732939
- Title: Perspectives on Large Language Models for Relevance Judgment
- Title(参考訳): 関連判断のための大規模言語モデルへの展望
- Authors: Guglielmo Faggioli, Laura Dietz, Charles Clarke, Gianluca Demartini,
Matthias Hagen, Claudia Hauff, Noriko Kando, Evangelos Kanoulas, Martin
Potthast, Benno Stein, Henning Wachsmuth
- Abstract要約: 大きな言語モデル(LLM)は、関係判断を支援することができると主張している。
多くの研究者は、これが信頼できる赤外線研究に繋がらないと考えている。
我々は、異なる関連判断戦略を分類できる人間と機械の協調スペクトルを考案する。
- 参考スコア(独自算出の注目度): 54.348390170317764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When asked, current large language models (LLMs) like ChatGPT claim that they
can assist us with relevance judgments. Many researchers think this would not
lead to credible IR research. In this perspective paper, we discuss possible
ways for LLMs to assist human experts along with concerns and issues that
arise. We devise a human-machine collaboration spectrum that allows
categorizing different relevance judgment strategies, based on how much the
human relies on the machine. For the extreme point of "fully automated
assessment", we further include a pilot experiment on whether LLM-based
relevance judgments correlate with judgments from trained human assessors. We
conclude the paper by providing two opposing perspectives - for and against the
use of LLMs for automatic relevance judgments - and a compromise perspective,
informed by our analyses of the literature, our preliminary experimental
evidence, and our experience as IR researchers.
We hope to start a constructive discussion within the community to avoid a
stale-mate during review, where work is dammed if is uses LLMs for evaluation
and dammed if it doesn't.
- Abstract(参考訳): ChatGPTのような現在の大規模言語モデル(LLM)は、関連する判断を支援することができると主張している。
多くの研究者は、これが信頼できる赤外線研究に繋がらないと考えている。
本稿では, LLMが人的専門家を支援できる可能性, 懸念事項, 課題について論じる。
我々は,人間がどの程度マシンに依存しているかに基づいて,異なる関連判断戦略を分類できる,人間と機械の協調スペクトルを考案する。
完全自動評価」の極端に、llmに基づく妥当性判断が訓練された人間評価者の判断と相関するかどうかのパイロット実験も実施する。
論文の結論は, 自動関連判断におけるLLMの使用と反対の2つの視点と, 文献の分析, 予備実験証拠, IR研究者としての経験から得られた妥協視点を提示することによって, 論文を締めくくった。
評価にllmを使用し、そうでなければ弱められる場合、作業は弱められ、レビューの間、停滞する仲間を避けるために、コミュニティ内で建設的な議論を始めることを願っています。
関連論文リスト
- JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - Adversarial Multi-Agent Evaluation of Large Language Models through Iterative Debates [0.0]
本稿では,対話エージェントのアンサンブル内で,大規模言語モデル(LLM)を提唱者として解釈するフレームワークを提案する。
このアプローチは、従来の人間ベースの評価や自動メトリクスと比較して、よりダイナミックで包括的な評価プロセスを提供します。
論文 参考訳(メタデータ) (2024-10-07T00:22:07Z) - From Calculation to Adjudication: Examining LLM judges on Mathematical Reasoning Tasks [11.01213914485374]
数学的推論タスクにおいて,大規模言語モデル (LLM) について検討する。
本分析により,判定性能と候補モデルタスク性能との間に強い相関関係が明らかになった。
本研究では,各モデルのタスク性能などの統計データを用いて,判定性能の予測を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2024-09-06T10:09:41Z) - Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。
BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。
本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文 参考訳(メタデータ) (2024-08-17T16:01:45Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - AI for human assessment: What do professional assessors need? [33.88509725285237]
このケーススタディは、専門家が人的アセスメントにおける意思決定を支援することを目的としており、アセスメント担当者とのインタビューを行い、特定の職種に対する適性を評価する。
評価の非言語的手がかりを抽出できる計算システムは、意思決定を支援するという点で評価者にとって有益である。
本研究では,顔のキーポイント,ポーズ,頭部ポーズ,視線といったマルチモーダルな行動特徴を用いた教師なし異常検出アルゴリズムに基づくシステムを開発した。
論文 参考訳(メタデータ) (2022-04-18T03:35:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。