論文の概要: Benchmarking and Improving LLM Robustness for Personalized Generation
- arxiv url: http://arxiv.org/abs/2509.19358v1
- Date: Thu, 18 Sep 2025 13:56:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.507641
- Title: Benchmarking and Improving LLM Robustness for Personalized Generation
- Title(参考訳): パーソナライズドジェネレーションのためのLCMロバストネスのベンチマークと改善
- Authors: Chimaobi Okite, Naihao Deng, Kiran Bodipati, Huaidian Hou, Joyce Chai, Rada Mihalcea,
- Abstract要約: 反応が事実的正確であり、ユーザの好みと一致している場合、モデルをロバストと定義します。
私たちの作業は、現在の評価プラクティスにおける重要なギャップを強調し、より信頼性が高く、ユーザ対応のデプロイメントをサポートするためのツールとメトリクスを導入しています。
- 参考スコア(独自算出の注目度): 42.26075952121524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have witnessed a growing interest in personalizing the responses of large language models (LLMs). While existing evaluations primarily focus on whether a response aligns with a user's preferences, we argue that factuality is an equally important yet often overlooked dimension. In the context of personalization, we define a model as robust if its responses are both factually accurate and align with the user preferences. To assess this, we introduce PERG, a scalable framework for evaluating robustness in LLMs, along with a new dataset, PERGData. We evaluate fourteen models from five different model families using different prompting methods. Our findings show that current LLMs struggle with robust personalization: even the strongest models (GPT-4.1, LLaMA3-70B) fail to maintain correctness in 5% of previously successful cases without personalization, while smaller models (e.g., 7B-scale) can fail more than 20% of the time. Further analysis reveals that robustness is significantly affected by the nature of the query and the type of user preference. To mitigate these failures, we propose Pref-Aligner, a two-stage approach that improves robustness by an average of 25% across models. Our work highlights critical gaps in current evaluation practices and introduces tools and metrics to support more reliable, user-aligned LLM deployments.
- Abstract(参考訳): 近年、大きな言語モデル(LLM)の応答をパーソナライズすることへの関心が高まっている。
既存の評価は、応答がユーザの好みと一致しているかどうかに重点を置いているが、事実性は同様に重要であり、見落とされがちな次元である、と我々は主張する。
パーソナライゼーションの文脈では、モデルがその応答が事実的正確であり、ユーザの好みに合致している場合、ロバストであると定義する。
これを評価するために,LLMの堅牢性を評価するスケーラブルなフレームワークであるPERGと,新たなデータセットであるPERGDataを紹介した。
異なるプロンプト手法を用いて、5つの異なるモデルファミリーから14のモデルを評価する。
以上の結果から, 最強モデル (GPT-4.1, LLaMA3-70B) でさえ, パーソナライゼーションのない症例の5%で正当性を維持することができず, より小さなモデル (例: 7B-scale) では20%以上失敗する可能性が示唆された。
さらに分析した結果,頑健性はクエリの性質やユーザの好みのタイプに大きく影響していることがわかった。
これらの障害を軽減するために,モデル間の平均25%のロバスト性を改善する2段階のアプローチであるPref-Alignerを提案する。
私たちの作業は、現在の評価プラクティスにおける重大なギャップを強調し、より信頼性が高くユーザ対応のLCMデプロイメントをサポートするためのツールとメトリクスを導入しています。
関連論文リスト
- When Weak LLMs Speak with Confidence, Preference Alignment Gets Stronger [12.541521203916867]
優先順位アライメントは、人間の価値に大規模な言語モデルを適用するための重要なステップである。
本稿では,LLMの信頼性を弱め,トレーニングサンプルを再重み付けするフレームワークである信頼度重み付き優先度最適化(CW-PO)を提案する。
人間のアノテーションの20%しか持たないCW-POは、標準のDPOの下で100%アノテーションでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2026-03-05T09:06:25Z) - Confidence-Driven Multi-Scale Model Selection for Cost-Efficient Inference [10.009730627424629]
大規模言語モデル(LLM)は、さまざまな自然言語タスクに対する推論に革命をもたらした。
本稿では,信頼度推定に基づいて最適モデルを動的に選択する信頼性駆動型戦略を提案する。
論文 参考訳(メタデータ) (2026-02-25T16:38:03Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - Investigating LLM Variability in Personalized Conversational Information Retrieval [14.220276130333849]
Moらは、個人用テキスト知識ベース(PTKB)を大規模言語モデル(LLM)に組み込むためのいくつかの戦略を探求した。
提案手法を新しいTREC iKAT 2024データセットに適用し,Llama (1B-70B), Qwen-7B, GPT-4o-miniを含む多種多様なモデルの評価を行った。
その結果,人間の選択したPTKBは連続的に検索性能を向上する一方,LLMに基づく選択法は手作業による選択を確実に上回るものではないことがわかった。
論文 参考訳(メタデータ) (2025-10-04T12:13:19Z) - User-centric Subjective Leaderboard by Customizable Reward Modeling [34.40455169451943]
ユーザ中心型主観的リーダーシップ(USL)について紹介する。
さまざまな現実世界のシナリオにまたがって、大規模言語モデル(LLM)の好み駆動の動的ランキングを提供する。
我々の研究は、10万件以上の主観的クエリを含む、実際の人間の嗜好データの徹底的な調査に基づいている。
論文 参考訳(メタデータ) (2025-08-13T03:39:04Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - SCORE: Systematic COnsistency and Robustness Evaluation for Large Language Models [4.875712300661656]
本稿では,大規模言語モデルの非敵対的評価のための総合的なフレームワークであるSCORE ($mathbfS$ystematic $mathbfCO$nsistency and $mathbfR$obustness $mathbfE$valuationを提案する。
SCOREフレームワークは、様々な設定で同じベンチマークで繰り返しテストすることでモデルを評価し、精度と一貫性を現実的に見積もる。
論文 参考訳(メタデータ) (2025-02-28T19:27:29Z) - Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。
SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。
分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation [50.837277466987345]
我々は、推奨のために大規模言語モデル(LLM)の分野に焦点を当てる。
ユーザ毎に独立したLoRAを管理するPersonalized LoRAモジュールを組み込んだRecLoRAを提案する。
また、Few2Many Learning Strategyを設計し、従来のレコメンデーションモデルをレンズとして使用して、小さなトレーニングスペースをフルスペースに拡大する。
論文 参考訳(メタデータ) (2024-08-07T04:20:28Z) - Large Language Model Confidence Estimation via Black-Box Access [30.490207799344333]
大規模言語モデル(LLM)の応答に対する信頼度をブラックボックスやクエリアクセスで推定する問題について検討する。
そこで我々は,新しい特徴を設計し,その信頼性を推定するために,これらの特徴に対する(解釈可能な)モデル(つまりロジスティック回帰)を訓練する,シンプルで汎用的なフレームワークを提案する。
我々は,Flan-ul2,-13b,Mistral-7b,GPT-4の4つのベンチマークQ&Aタスクおよび2つのベンチマーク要約タスクにおけるPegasus-large,BART-largeの信頼性を推定する上で,我々の単純なフレームワークが有効であることを示す。
論文 参考訳(メタデータ) (2024-06-01T02:08:44Z) - On Diversified Preferences of Large Language Model Alignment [51.26149027399505]
本稿では,様々な大きさの報酬モデルに対する実験スケーリング法則の定量的解析を行った。
分析の結果,ヒトの嗜好の多様化による影響は,モデルサイズとデータサイズの両方に依存することが明らかとなった。
十分なキャパシティを持つ大きなモデルでは、さまざまな好みによるネガティブな影響が軽減される一方、より小さなモデルはそれらに対応するのに苦労する。
論文 参考訳(メタデータ) (2023-12-12T16:17:15Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。