論文の概要: Investigating LLM Variability in Personalized Conversational Information Retrieval
- arxiv url: http://arxiv.org/abs/2510.03795v1
- Date: Sat, 04 Oct 2025 12:13:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.256074
- Title: Investigating LLM Variability in Personalized Conversational Information Retrieval
- Title(参考訳): パーソナライズされた会話情報検索におけるLLM変数の検討
- Authors: Simon Lupart, Daniël van Dijk, Eric Langezaal, Ian van Dort, Mohammad Aliannejadi,
- Abstract要約: Moらは、個人用テキスト知識ベース(PTKB)を大規模言語モデル(LLM)に組み込むためのいくつかの戦略を探求した。
提案手法を新しいTREC iKAT 2024データセットに適用し,Llama (1B-70B), Qwen-7B, GPT-4o-miniを含む多種多様なモデルの評価を行った。
その結果,人間の選択したPTKBは連続的に検索性能を向上する一方,LLMに基づく選択法は手作業による選択を確実に上回るものではないことがわかった。
- 参考スコア(独自算出の注目度): 14.220276130333849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalized Conversational Information Retrieval (CIR) has seen rapid progress in recent years, driven by the development of Large Language Models (LLMs). Personalized CIR aims to enhance document retrieval by leveraging user-specific information, such as preferences, knowledge, or constraints, to tailor responses to individual needs. A key resource for this task is the TREC iKAT 2023 dataset, designed to evaluate personalization in CIR pipelines. Building on this resource, Mo et al. explored several strategies for incorporating Personal Textual Knowledge Bases (PTKB) into LLM-based query reformulation. Their findings suggested that personalization from PTKBs could be detrimental and that human annotations were often noisy. However, these conclusions were based on single-run experiments using the GPT-3.5 Turbo model, raising concerns about output variability and repeatability. In this reproducibility study, we rigorously reproduce and extend their work, focusing on LLM output variability and model generalization. We apply the original methods to the new TREC iKAT 2024 dataset and evaluate a diverse range of models, including Llama (1B-70B), Qwen-7B, GPT-4o-mini. Our results show that human-selected PTKBs consistently enhance retrieval performance, while LLM-based selection methods do not reliably outperform manual choices. We further compare variance across datasets and observe higher variability on iKAT than on CAsT, highlighting the challenges of evaluating personalized CIR. Notably, recall-oriented metrics exhibit lower variance than precision-oriented ones, a critical insight for first-stage retrievers. Finally, we underscore the need for multi-run evaluations and variance reporting when assessing LLM-based CIR systems. By broadening evaluation across models, datasets, and metrics, our study contributes to more robust and generalizable practices for personalized CIR.
- Abstract(参考訳): パーソナライズされた会話情報検索(CIR)は,大規模言語モデル(LLM)の開発によって,近年急速に進展している。
パーソナライズされたCIRは、好み、知識、制約といったユーザ固有の情報を活用して文書検索を強化し、個々のニーズに対する応答を調整することを目的としている。
このタスクの重要なリソースは、CIRパイプラインのパーソナライズを評価するために設計されたTREC iKAT 2023データセットである。
このリソースに基づいてMoらは、パーソナルテキスト知識ベース(PTKB)をLLMベースのクエリ再構成に組み込むためのいくつかの戦略を探求した。
これらの結果から,PTKBのパーソナライゼーションは有害であり,ヒトのアノテーションがうるさいことが示唆された。
しかし、これらの結論はGPT-3.5ターボモデルを用いた単走実験に基づいており、出力の変動性と再現性に対する懸念が高まった。
本研究では, LLM出力の変動性とモデル一般化に着目し, 厳密に再現・拡張する。
提案手法をTREC iKAT 2024データセットに適用し,Llama (1B-70B), Qwen-7B, GPT-4o-miniなど多種多様なモデルの評価を行った。
その結果,人間の選択したPTKBは連続的に検索性能を向上する一方,LLMに基づく選択法は手作業による選択を確実に上回るものではないことがわかった。
さらに、データセット間のばらつきを比較し、CAsTよりもiKATの方が高いばらつきを観察し、パーソナライズされたCIRを評価する上での課題を強調した。
特に、リコール指向のメトリクスは精度指向のメトリクスよりもばらつきが低い。
最後に、LCMベースのCIRシステムを評価する際に、マルチラン評価と分散レポートの必要性を強調する。
モデル、データセット、メトリクスに対する評価を広げることで、パーソナライズされたCIRのためのより堅牢で一般化可能なプラクティスに寄与する。
関連論文リスト
- How Good are LLM-based Rerankers? An Empirical Analysis of State-of-the-Art Reranking Models [24.90505576458548]
我々は,大規模言語モデル(LLM)に基づく,軽量なコンテクストとゼロショットアプローチを含む,最先端のリグレード手法の評価を行った。
我々の第一の目的は、LLMベースのリランカと軽量なリランカの間に性能格差が存在するかどうか、制御と公正な比較によって決定することである。
論文 参考訳(メタデータ) (2025-08-22T19:30:04Z) - Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。
DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。
理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-05T23:54:53Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。