論文の概要: The Personalization Paradox: Semantic Loss vs. Reasoning Gains in Agentic AI Q&A
- arxiv url: http://arxiv.org/abs/2512.04343v1
- Date: Thu, 04 Dec 2025 00:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.933962
- Title: The Personalization Paradox: Semantic Loss vs. Reasoning Gains in Agentic AI Q&A
- Title(参考訳): パーソナライズパラドックス:エージェントAIQ&Aにおけるセマンティック損失対推論の上昇
- Authors: Satyajit Movidi, Stephen Russell,
- Abstract要約: 複数の評価次元において,パーソナライゼーションがシステム性能に与える影響について検討した。
結果は一貫したトレードオフを示し、パーソナライゼーションは推論の品質と根拠を確実に改善した。
この研究は、個人化が一様改善よりもメートル法に依存したシフトを生み出すことを示した。
- 参考スコア(独自算出の注目度): 0.5623023138026949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AIVisor, an agentic retrieval-augmented LLM for student advising, was used to examine how personalization affects system performance across multiple evaluation dimensions. Using twelve authentic advising questions intentionally designed to stress lexical precision, we compared ten personalized and non-personalized system configurations and analyzed outcomes with a Linear Mixed-Effects Model across lexical (BLEU, ROUGE-L), semantic (METEOR, BERTScore), and grounding (RAGAS) metrics. Results showed a consistent trade-off: personalization reliably improved reasoning quality and grounding, yet introduced a significant negative interaction on semantic similarity, driven not by poorer answers but by the limits of current metrics, which penalize meaningful personalized deviations from generic reference texts. This reveals a structural flaw in prevailing LLM evaluation methods, which are ill-suited for assessing user-specific responses. The fully integrated personalized configuration produced the highest overall gains, suggesting that personalization can enhance system effectiveness when evaluated with appropriate multidimensional metrics. Overall, the study demonstrates that personalization produces metric-dependent shifts rather than uniform improvements and provides a methodological foundation for more transparent and robust personalization in agentic AI.
- Abstract(参考訳): AIVisorは,複数の評価次元において,個人化がシステムパフォーマンスに与える影響を調べるために,エージェント検索拡張LDMである。
語彙的精度を強調するために意図的に設計された12の正解質問を用いて、個人化された10のシステム構成を比較し、語彙的(BLEU, ROUGE-L),意味論的(METEOR, BERTScore),接地的(RAGAS)メトリクスを用いて結果を分析した。
パーソナライゼーションは推論の品質と根拠を確実に改善するが、セマンティックな類似性に対して重要なネガティブな相互作用を導入し、より貧弱な回答ではなく、一般的な参照テキストから意味のあるパーソナライズされた逸脱を罰する現在の指標の限界によって引き起こされた。
これは、ユーザ固有の応答を評価するのに不適なLLM評価手法における構造的欠陥を明らかにする。
完全に統合されたパーソナライズされた構成は、最も高い総合的な利益をもたらし、パーソナライズが適切な多次元メトリクスで評価した場合、システムの有効性を高めることが示唆された。
全体として、この研究は、個人化が一様の改善よりもメートル法に依存したシフトを生み出すことを示し、エージェントAIにおけるより透明で堅牢な個人化のための方法論的基盤を提供する。
関連論文リスト
- Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It [81.50711040539566]
現在の大規模言語モデル(LLM)開発は、タスク解決と優先順位調整を別の課題として扱う。
静的ベンチマークを対話型パーソナライズタスクに変換する評価手法であるPreFDISCOを紹介する。
我々のフレームワークは、ユーザコンテキストに応じて、同じ質問が異なる推論チェーンを必要とするシナリオを作成します。
論文 参考訳(メタデータ) (2025-09-30T18:55:28Z) - The Unanticipated Asymmetry Between Perceptual Optimization and Assessment [15.11427750828098]
画像品質評価(IQA)に優れる忠実度指標は知覚的最適化に必ずしも有効ではないことを示す。
また、識別器設計は、バニラやトランスフォーマーベースの代替品よりも、より忠実な詳細な再構築を提供するパッチレベルおよび畳み込みアーキテクチャによって、最適化を形作る上で決定的な役割を担っていることも示している。
論文 参考訳(メタデータ) (2025-09-25T08:08:26Z) - Pathways of Thoughts: Multi-Directional Thinking for Long-form Personalized Question Answering [57.12316804290369]
ユーザ固有の情報ニーズに質問応答システムを適用するためには,パーソナライゼーションが不可欠である。
本稿では,タスク固有の微調整を必要とせず,任意の大規模言語モデル (LLM) に適用可能な推論段階の方法として,思考の経路 (PoT) を提案する。
PoTは競争ベースラインを一貫して上回り、13.1%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2025-09-23T14:44:46Z) - Objective Metrics for Evaluating Large Language Models Using External Data Sources [4.574672973076743]
本稿では,異なるセメータにまたがるクラステキスト資料から得られた主観的指標を活用するための枠組みを提案する。
このフレームワークは、スコアリングにおける自動化と透明性を強調し、人間の解釈への依存を減らす。
本手法は, 主観評価手法の限界に対処し, 教育, 科学, その他の高度な分野のパフォーマンス評価のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-08-01T02:24:19Z) - Metric Design != Metric Behavior: Improving Metric Selection for the Unbiased Evaluation of Dimensionality Reduction [10.099350224451387]
次元減少(DR)プロジェクションは、信頼できる視覚分析に不可欠である。
DRプロジェクションは、非常に相関性の高いメトリクス、同様の構造特性を計測した場合、不注意に選択される場合、バイアスとなる可能性がある。
本研究では,評価指標の選択におけるバイアスを,経験的相関に基づくクラスタリングによって低減する新しいワークフローを提案する。
論文 参考訳(メタデータ) (2025-07-03T01:07:02Z) - AIR: A Systematic Analysis of Annotations, Instructions, and Response Pairs in Preference Dataset [89.37514696019484]
嗜好学習は、大きな言語モデルと人間の価値の整合に不可欠である。
私たちの作業は、好みのデータセット設計をアドホックなスケーリングからコンポーネント対応の最適化にシフトします。
論文 参考訳(メタデータ) (2025-04-04T17:33:07Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Building Trust in Black-box Optimization: A Comprehensive Framework for Explainability [1.3812010983144802]
代理最適化(SO)は共通の解決法であるが、その独自性は説明可能性と透明性の欠如につながっている。
EmphInclusive Explainability Metrics for Surrogate Optimization (IEMSO)を提案する。
これらのメトリクスは、SOアプローチの透明性、信頼性、説明可能性を高める。
論文 参考訳(メタデータ) (2024-10-18T16:20:17Z) - Wait, that's not an option: LLMs Robustness with Incorrect Multiple-Choice Options [2.1184929769291294]
本研究は,LLMの命令追従能力と批判的推論とのバランスを評価するための新しいフレームワークを提案する。
トレーニング後のアライメントモデルでは,無効なオプションの選択がデフォルトとなることが多いが,ベースモデルでは,モデルサイズに合わせてスケールするリファリング機能が改善されている。
さらに、同様の指示追従バイアスを示す並列人間の研究を行い、これらのバイアスがアライメントに使用される人間のフィードバックデータセットを通してどのように伝播するかを示唆した。
論文 参考訳(メタデータ) (2024-08-27T19:27:43Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。