論文の概要: Improving the Reusability of Conversational Search Test Collections
- arxiv url: http://arxiv.org/abs/2503.09899v1
- Date: Wed, 12 Mar 2025 23:36:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:50:38.123759
- Title: Improving the Reusability of Conversational Search Test Collections
- Title(参考訳): 対話型検索テストコレクションの再利用性向上
- Authors: Zahra Abbasiantaeb, Chuan Meng, Leif Azzopardi, Mohammad Aliannejadi,
- Abstract要約: 不完全関連判断は、テストコレクションの再利用性を制限する。
これは、新しいシステムが返すテストコレクションの未判断のドキュメント(穴と呼ばれる)のポケットが原因である。
既存の判断を活かして穴を埋めるために,Large Language Models (LLMs) を用いる。
- 参考スコア(独自算出の注目度): 9.208308067952155
- License:
- Abstract: Incomplete relevance judgments limit the reusability of test collections. When new systems are compared to previous systems that contributed to the pool, they often face a disadvantage. This is due to pockets of unjudged documents (called holes) in the test collection that the new systems return. The very nature of Conversational Search (CS) means that these holes are potentially larger and more problematic when evaluating systems. In this paper, we aim to extend CS test collections by employing Large Language Models (LLMs) to fill holes by leveraging existing judgments. We explore this problem using TREC iKAT 23 and TREC CAsT 22 collections, where information needs are highly dynamic and the responses are much more varied, leaving bigger holes to fill. Our experiments reveal that CS collections show a trend towards less reusability in deeper turns. Also, fine-tuning the Llama 3.1 model leads to high agreement with human assessors, while few-shot prompting the ChatGPT results in low agreement with humans. Consequently, filling the holes of a new system using ChatGPT leads to a higher change in the location of the new system. While regenerating the assessment pool with few-shot prompting the ChatGPT model and using it for evaluation achieves a high rank correlation with human-assessed pools. We show that filling the holes using few-shot training the Llama 3.1 model enables a fairer comparison between the new system and the systems contributed to the pool. Our hole-filling model based on few-shot training of the Llama 3.1 model can improve the reusability of test collections.
- Abstract(参考訳): 不完全関連判断は、テストコレクションの再利用性を制限する。
新しいシステムが、プールに寄与した以前のシステムと比較されると、しばしば不利益に直面します。
これは、新しいシステムが返すテストコレクションの未判断のドキュメント(穴と呼ばれる)のポケットが原因である。
Conversational Search (CS) の本質は、これらの穴がシステム評価において潜在的に大きく、より問題となることを意味する。
本稿では,大規模言語モデル(LLM)を用いてCSテストコレクションを拡張し,既存の判断を活用することを目的とする。
TREC iKAT 23 と TREC CAsT 22 のコレクションを用いてこの問題を探究し,情報要求は極めて動的であり,応答はより多様であり,より大きな穴を埋める必要がある。
実験の結果,CSコレクションはより深いターンで再利用可能性の低下を示す傾向を示した。
また、Llama 3.1モデルを微調整すると、人間の評価者との合意度が高くなり、ChatGPTをトリガーすることで人間との合意度が低くなる。
その結果,ChatGPTを用いた新システムの穴を埋めることにより,新システムの位置がより大きく変化する。
少数ショットで評価プールを再生しながら、ChatGPTモデルを用いて評価を行い、人体評価プールとの高階相関を実現する。
その結果,Llama 3.1 モデルでは,Llama 3.1 モデルを用いて穴を埋めることにより,新しいシステムとプールに寄与するシステムとの公平な比較が可能となった。
Llama 3.1モデルの少数ショットトレーニングに基づく孔埋めモデルは,テストコレクションの再利用性を向上させることができる。
関連論文リスト
- Enhancing Retrieval Performance: An Ensemble Approach For Hard Negative Mining [0.0]
本研究は,クロスエンコーダモデルのトレーニングプロセスにおいて,ハードネガティブが果たす重要な役割を説明することに焦点を当てる。
我々は,企業データセット上でのクロスエンコーダ・リランクモデルの効率的なトレーニングのための強硬な負のマイニング手法を開発した。
論文 参考訳(メタデータ) (2024-10-18T05:23:39Z) - Can We Use Large Language Models to Fill Relevance Judgment Holes? [9.208308067952155]
ホールを埋めるためにLarge Language Models(LLM)を利用することで、既存のテストコレクションを拡張するための最初のステップを取ります。
人間+自動判断を用いた場合, 相関関係は著しく低くなる。
論文 参考訳(メタデータ) (2024-05-09T07:39:19Z) - Evaluating ChatGPT as a Recommender System: A Rigorous Approach [12.458752059072706]
本稿では,ChatGPTのRSとしての能力とプロセス後ChatGPTレコメンデーションを評価するためのロバストな評価パイプラインを提案する。
モデルの機能は,トップNレコメンデーション,コールドスタートレコメンデーション,リコメンデーションリストの再ランクの3つの設定で分析する。
論文 参考訳(メタデータ) (2023-09-07T10:13:09Z) - Three Ways of Using Large Language Models to Evaluate Chat [3.7767218432589553]
本稿では,DSTC 11 Track 4コンペティションであるChatEvalのチーム6が提出したシステムについて述べる。
大規模言語モデル(LLM)に基づく応答のターンレベル品質を予測するための3つのアプローチを提案する。
本稿では,ChatGPTのプロンプトのためのベクトルストアからの動的少数ショット例を用いて,ベースラインの改善を報告する。
チャレンジ期限後に行われたアブレーション調査は、新しいLlama 2モデルがChatGPTとオープンソースのLLMのパフォーマンスギャップを埋めていることを示している。
論文 参考訳(メタデータ) (2023-08-12T08:34:15Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - Towards Teachable Reasoning Systems [29.59387051046722]
質問応答のための授業可能な推論システム(QA)を開発した。
私たちのアプローチは3つあります。 まず、生成された推論の連鎖は、システムの内部の信念によってどのように答えが示唆されるかを示しています。
第二に、ユーザーは説明と対話して誤ったモデル信念を特定し、修正を行うことができる。
第3に、そのような補正の動的なメモリでモデルを増強する。
論文 参考訳(メタデータ) (2022-04-27T17:15:07Z) - Group-aware Contrastive Regression for Action Quality Assessment [85.43203180953076]
ビデオ間の関係は、より正確な行動品質評価のための重要な手がかりとなることを示す。
提案手法は従来の手法よりも大きなマージンを達成し,3つのベンチマークで新たな最先端の手法を確立する。
論文 参考訳(メタデータ) (2021-08-17T17:59:39Z) - Joint Passage Ranking for Diverse Multi-Answer Retrieval [56.43443577137929]
質問に対する複数の異なる回答をカバーするために、パスの取得を必要とする探索不足の問題であるマルチアンサー検索について検討する。
モデルが別の有効な答えを逃す費用で同じ答えを含む通路を繰り返すべきではないので、このタスクは、検索された通路の共同モデリングを必要とします。
本稿では,再順位に着目したジョイントパス検索モデルであるJPRを紹介する。
回収された通路の合同確率をモデル化するために、JPRは、新しい訓練および復号アルゴリズムを備えた通路のシーケンスを選択する自動回帰リタイナを利用する。
論文 参考訳(メタデータ) (2021-04-17T04:48:36Z) - Revisiting Deep Local Descriptor for Improved Few-Shot Classification [56.74552164206737]
textbfDense textbfClassification と textbfAttentive textbfPooling を利用して埋め込みの質を向上させる方法を示す。
広範に使われているグローバル平均プール (GAP) の代わりに, 注意深いプールを施し, 特徴マップをプールすることを提案する。
論文 参考訳(メタデータ) (2021-03-30T00:48:28Z) - Improving Conversational Question Answering Systems after Deployment
using Feedback-Weighted Learning [69.42679922160684]
本稿では,二元的ユーザフィードバックを用いた初期教師付きシステムを改善するために,重要サンプリングに基づくフィードバック重み付き学習を提案する。
当社の作業は,実際のユーザとのインタラクションを活用し,デプロイ後の会話システムを改善する可能性を開くものだ。
論文 参考訳(メタデータ) (2020-11-01T19:50:34Z) - Overcoming Classifier Imbalance for Long-tail Object Detection with
Balanced Group Softmax [88.11979569564427]
本報告では, 長期分布前における最先端モデルの過小評価に関する最初の体系的解析を行う。
本稿では,グループワイドトレーニングを通じて検出フレームワーク内の分類器のバランスをとるための,新しいバランス付きグループソフトマックス(BAGS)モジュールを提案する。
非常に最近の長尾大語彙オブジェクト認識ベンチマークLVISの大規模な実験により,提案したBAGSは検出器の性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2020-06-18T10:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。