論文の概要: Revisiting Human-vs-LLM judgments using the TREC Podcast Track
- arxiv url: http://arxiv.org/abs/2601.05603v1
- Date: Fri, 09 Jan 2026 07:45:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.90064
- Title: Revisiting Human-vs-LLM judgments using the TREC Podcast Track
- Title(参考訳): TRECポッドキャストトラックを用いた人間-vs-LLM判定の再検討
- Authors: Watheq Mansour, J. Shane Culpepper, Joel Mackenzie, Andrew Yates,
- Abstract要約: 我々は,大規模言語モデル (LLM) と人間専門家のユーザ合意に関する分析を行う。
この結果は2002年のSormunenのこれまでの知見を補強し、単一のアセスメントを頼りにすることでユーザ合意の低さにつながった。
- 参考スコア(独自算出の注目度): 20.26070370633
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Using large language models (LLMs) to annotate relevance is an increasingly important technique in the information retrieval community. While some studies demonstrate that LLMs can achieve high user agreement with ground truth (human) judgments, other studies have argued for the opposite conclusion. To the best of our knowledge, these studies have primarily focused on classic ad-hoc text search scenarios. In this paper, we conduct an analysis on user agreement between LLM and human experts, and explore the impact disagreement has on system rankings. In contrast to prior studies, we focus on a collection composed of audio files that are transcribed into two-minute segments -- the TREC 2020 and 2021 podcast track. We employ five different LLM models to re-assess all of the query-segment pairs, which were originally annotated by TREC assessors. Furthermore, we re-assess a small subset of pairs where LLM and TREC assessors have the highest disagreement, and found that the human experts tend to agree with LLMs more than with the TREC assessors. Our results reinforce the previous insights of Sormunen in 2002 -- that relying on a single assessor leads to lower user agreement.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いて関連性を注釈化する手法は,情報検索コミュニティにおいてますます重要になっている。
一部の研究は、LLMが地上の真実(人間)の判断と高いユーザ合意を達成できることを示したが、反対の結論を主張する研究もある。
我々の知る限りでは、これらの研究は主に古典的なアドホックテキスト検索のシナリオに焦点を当てている。
本稿では,LLMと人間専門家のユーザ合意に関する分析を行い,システムランキングに対する不一致の影響について検討する。
これまでの研究とは対照的に、TREC 2020と2021のポッドキャストトラックである2分間のセグメントに書き起こされたオーディオファイルからなるコレクションに焦点を当てています。
我々は5つの異なるLCMモデルを用いてクエリ・セグメンテーションのペアを再評価し、TRECアセステータによってアノテートされた。
さらに,LLM と TREC のアセスメントが最多であるようなペアの小さなサブセットを再評価した結果,人間の専門家は TREC のアセスメントよりも LLM に同意する傾向にあることがわかった。
この結果は2002年のSormunenのこれまでの知見を補強し、単一のアセスメントを頼りにすることでユーザ合意の低さにつながった。
関連論文リスト
- LLM-REVal: Can We Trust LLM Reviewers Yet? [70.58742663985652]
大規模言語モデル(LLM)は研究者に、学術的なワークフローに広く組み込むよう刺激を与えている。
本研究は、LLMのピアレビューと研究プロセスへの深い統合が学術的公正性にどのように影響するかに焦点を当てる。
論文 参考訳(メタデータ) (2025-10-14T10:30:20Z) - Rankers, Judges, and Assistants: Towards Understanding the Interplay of LLMs in Information Retrieval Evaluation [44.58099275559231]
大規模言語モデル(LLM)は、情報検索(IR)、ランキング、評価、AI支援コンテンツ作成にますます不可欠なものになっている。
本稿では,既存の研究を合成し,LLMに基づくローダとアシスタントがLLMベースの審査員にどのように影響するかを探求する新しい実験設計を提案する。
論文 参考訳(メタデータ) (2025-03-24T19:24:40Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - Language Model Council: Democratically Benchmarking Foundation Models on Highly Subjective Tasks [3.58262772907022]
言語モデル協議会(LMC: Language Model Council)では、LLMのグループが協力してテストを作成し、それに反応し、相互の反応を評価して、民主的な方法でランキングを作成する。
感情的インテリジェンスに関する詳細なケーススタディでは、対人対立に対するオープン・エンド・レスポンスにおいて、20の最近のLCMを相互にランク付けするために配置する。
以上の結果から, LMCは, より分離性が高く, より堅牢なランキングを作成でき, ユーザスタディにより, 個々のLCM審査員よりも人的評価に整合性があることが示唆された。
論文 参考訳(メタデータ) (2024-06-12T19:05:43Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。