論文の概要: Investigating LLM Variability in Personalized Conversational Information Retrieval
- arxiv url: http://arxiv.org/abs/2510.03795v1
- Date: Sat, 04 Oct 2025 12:13:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.256074
- Title: Investigating LLM Variability in Personalized Conversational Information Retrieval
- Title(参考訳): パーソナライズされた会話情報検索におけるLLM変数の検討
- Authors: Simon Lupart, Daniël van Dijk, Eric Langezaal, Ian van Dort, Mohammad Aliannejadi,
- Abstract要約: Moらは、個人用テキスト知識ベース(PTKB)を大規模言語モデル(LLM)に組み込むためのいくつかの戦略を探求した。
提案手法を新しいTREC iKAT 2024データセットに適用し,Llama (1B-70B), Qwen-7B, GPT-4o-miniを含む多種多様なモデルの評価を行った。
その結果,人間の選択したPTKBは連続的に検索性能を向上する一方,LLMに基づく選択法は手作業による選択を確実に上回るものではないことがわかった。
- 参考スコア(独自算出の注目度): 14.220276130333849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalized Conversational Information Retrieval (CIR) has seen rapid progress in recent years, driven by the development of Large Language Models (LLMs). Personalized CIR aims to enhance document retrieval by leveraging user-specific information, such as preferences, knowledge, or constraints, to tailor responses to individual needs. A key resource for this task is the TREC iKAT 2023 dataset, designed to evaluate personalization in CIR pipelines. Building on this resource, Mo et al. explored several strategies for incorporating Personal Textual Knowledge Bases (PTKB) into LLM-based query reformulation. Their findings suggested that personalization from PTKBs could be detrimental and that human annotations were often noisy. However, these conclusions were based on single-run experiments using the GPT-3.5 Turbo model, raising concerns about output variability and repeatability. In this reproducibility study, we rigorously reproduce and extend their work, focusing on LLM output variability and model generalization. We apply the original methods to the new TREC iKAT 2024 dataset and evaluate a diverse range of models, including Llama (1B-70B), Qwen-7B, GPT-4o-mini. Our results show that human-selected PTKBs consistently enhance retrieval performance, while LLM-based selection methods do not reliably outperform manual choices. We further compare variance across datasets and observe higher variability on iKAT than on CAsT, highlighting the challenges of evaluating personalized CIR. Notably, recall-oriented metrics exhibit lower variance than precision-oriented ones, a critical insight for first-stage retrievers. Finally, we underscore the need for multi-run evaluations and variance reporting when assessing LLM-based CIR systems. By broadening evaluation across models, datasets, and metrics, our study contributes to more robust and generalizable practices for personalized CIR.
- Abstract(参考訳): パーソナライズされた会話情報検索(CIR)は,大規模言語モデル(LLM)の開発によって,近年急速に進展している。
パーソナライズされたCIRは、好み、知識、制約といったユーザ固有の情報を活用して文書検索を強化し、個々のニーズに対する応答を調整することを目的としている。
このタスクの重要なリソースは、CIRパイプラインのパーソナライズを評価するために設計されたTREC iKAT 2023データセットである。
このリソースに基づいてMoらは、パーソナルテキスト知識ベース(PTKB)をLLMベースのクエリ再構成に組み込むためのいくつかの戦略を探求した。
これらの結果から,PTKBのパーソナライゼーションは有害であり,ヒトのアノテーションがうるさいことが示唆された。
しかし、これらの結論はGPT-3.5ターボモデルを用いた単走実験に基づいており、出力の変動性と再現性に対する懸念が高まった。
本研究では, LLM出力の変動性とモデル一般化に着目し, 厳密に再現・拡張する。
提案手法をTREC iKAT 2024データセットに適用し,Llama (1B-70B), Qwen-7B, GPT-4o-miniなど多種多様なモデルの評価を行った。
その結果,人間の選択したPTKBは連続的に検索性能を向上する一方,LLMに基づく選択法は手作業による選択を確実に上回るものではないことがわかった。
さらに、データセット間のばらつきを比較し、CAsTよりもiKATの方が高いばらつきを観察し、パーソナライズされたCIRを評価する上での課題を強調した。
特に、リコール指向のメトリクスは精度指向のメトリクスよりもばらつきが低い。
最後に、LCMベースのCIRシステムを評価する際に、マルチラン評価と分散レポートの必要性を強調する。
モデル、データセット、メトリクスに対する評価を広げることで、パーソナライズされたCIRのためのより堅牢で一般化可能なプラクティスに寄与する。
関連論文リスト
- The LLM Data Auditor: A Metric-oriented Survey on Quality and Trustworthiness in Evaluating Synthetic Data [25.926467401802046]
大規模言語モデル(LLM)は、様々なモダリティにまたがるデータを生成する強力なツールとして登場した。
本稿では,2次元から合成データを評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-25T06:40:25Z) - How Good are LLM-based Rerankers? An Empirical Analysis of State-of-the-Art Reranking Models [24.90505576458548]
我々は,大規模言語モデル(LLM)に基づく,軽量なコンテクストとゼロショットアプローチを含む,最先端のリグレード手法の評価を行った。
我々の第一の目的は、LLMベースのリランカと軽量なリランカの間に性能格差が存在するかどうか、制御と公正な比較によって決定することである。
論文 参考訳(メタデータ) (2025-08-22T19:30:04Z) - Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。
DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。
理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-05T23:54:53Z) - Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。
単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。
LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。
データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文 参考訳(メタデータ) (2025-03-05T05:39:29Z) - Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。
分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。
BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T18:39:53Z) - CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。
LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。
我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:31:37Z) - Relation Extraction with Fine-Tuned Large Language Models in Retrieval Augmented Generation Frameworks [0.0]
関係抽出(RE)は、構造化されていないデータを知識グラフ(KG)のような構造化形式に変換するために重要である
プレトレーニング言語モデル(PLM)を活用した最近の研究は、この分野で大きな成功を収めている。
本研究では、微調整LDMの性能と、Retrieval Augmented-based (RAG) REアプローチへの統合について検討する。
論文 参考訳(メタデータ) (2024-06-20T21:27:57Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Adapting LLMs for Efficient, Personalized Information Retrieval: Methods
and Implications [0.7832189413179361]
LLM(Large Language Models)は、人間に似たテキストの理解と生成に優れた言語モデルである。
本稿では,言語モデル(LLM)と情報検索(IR)システムの統合戦略について検討する。
論文 参考訳(メタデータ) (2023-11-21T02:01:01Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。