論文の概要: Does LLM Focus on the Right Words? Diagnosing Language Bias in LLM-based Recommenders
- arxiv url: http://arxiv.org/abs/2510.10978v1
- Date: Mon, 13 Oct 2025 03:35:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.186099
- Title: Does LLM Focus on the Right Words? Diagnosing Language Bias in LLM-based Recommenders
- Title(参考訳): LLMは正しい単語にフォーカスするか? : LLMベースのレコメンダにおける言語バイアスの診断
- Authors: Bohao Wang, Jiawei Chen, Feng Liu, Changwang Zhang, Jun Wang, Canghong Jin, Chun Chen, Can Wang,
- Abstract要約: Group Distributionally Robust Optimization-based Tuning (GDRT) は、トークングループ間で一貫したモデルパフォーマンスを、補助トークンとの関連性に応じて実施する、新しい微調整パラダイムである。
3つの公開データセットで実施された大規模な実験は、GDRTが言語バイアスを効果的に軽減し、推奨精度を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 19.30200818581719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs), owing to their extensive open-domain knowledge and semantic reasoning capabilities, have been increasingly integrated into recommender systems (RS). However, a substantial gap remains between the pre-training objectives of LLMs and the specific requirements of recommendation tasks. To address this gap, supervised fine-tuning (SFT) is commonly performed on specially curated recommendation datasets to further enhance their predictive ability. Despite its success, SFT exhibits a critical limitation: it induces Language Bias, whereby the model over-relies on auxiliary tokens-such as task descriptions and prefix-generated tokens-while underutilizing core user interaction tokens that encode user-specific preferences. This bias not only undermines recommendation accuracy but also raises unfairness concerns. To address this issue, we propose Group Distributionally Robust Optimization-based Tuning (GDRT), a novel fine-tuning paradigm that enforces consistent model performance across token groups with varying degrees of relevance to auxiliary tokens. By adaptively upweighting underperforming groups, typically those weakly correlated with auxiliary tokens, GDRT shifts the model's attention from superficial auxiliary cues to informative user interaction tokens, thereby mitigating language bias. Extensive experiments conducted on three public datasets demonstrate that GDRT effectively mitigates language bias, yielding substantial improvements in recommendation accuracy (with an average NDCG@10 gain of 24.29%) and significantly enhancing recommendation fairness.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、その広範なオープンドメインの知識とセマンティック推論能力により、リコメンダシステム(RS)に統合されつつある。
しかし、LLMの事前学習目標とレコメンデーションタスクの特定の要求との間には、かなりのギャップが残っている。
このギャップに対処するために、教師付き微調整(SFT)は、予測能力をさらに高めるために、特別にキュレートされたレコメンデーションデータセット上で一般的に実行される。
言語バイアス(Language Bias)は、タスク記述やプレフィックス生成トークンなどの補助トークンをオーバーリプライするモデルで、ユーザ固有の嗜好をエンコードする中核的なユーザインタラクショントークンを運用する。
このバイアスはレコメンデーションの精度を損なうだけでなく、不公平な懸念を引き起こす。
この問題に対処するため,GDRT(Group Distributionally Robust Optimization-based Tuning)を提案する。
補助的トークンと弱相関の低いグループを適応的に重み付けすることで、GDRTはモデルの注意を表面的な補助的キューから情報的ユーザインタラクショントークンにシフトし、言語バイアスを緩和する。
3つの公開データセットで実施された大規模な実験は、GDRTが言語バイアスを効果的に軽減し、推奨精度(平均NDCG@10ゲイン24.29%)を大幅に改善し、推奨公正性を著しく向上させることを示した。
関連論文リスト
- Distribution Preference Optimization: A Fine-grained Perspective for LLM Unlearning [26.120338506874976]
モデルユーティリティ全体を維持しながら、特定のデータの影響を取り除くことを目的としたアンラーニングは、重要な研究領域になりつつある。
textbfDistribution textbfPreference textbfOptimization (DiPO)と呼ばれる新しい未学習アルゴリズムを導出する。
DiPOはTOFUベンチマークで最高の品質を獲得し、MUSEベンチマークで主要なスケーラビリティと持続可能性を維持している。
論文 参考訳(メタデータ) (2025-10-06T12:49:00Z) - IGD: Token Decisiveness Modeling via Information Gain in LLMs for Personalized Recommendation [79.22388408461458]
我々は,トークン決定性をチューニングと復号の両方に統合する情報ゲインに基づく決定性対応トークンハンドリング(IGD)戦略を導入する。
IGDはリコメンデーションの精度を一貫して改善し、強力なベースラインに比べて広く使われているランキングの指標で顕著に向上した。
論文 参考訳(メタデータ) (2025-06-16T08:28:19Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Training Large Recommendation Models via Graph-Language Token Alignment [53.3142545812349]
本稿では,グラフ言語トークンアライメントによる大規模推薦モデルのトレーニングを行う新しいフレームワークを提案する。
インタラクショングラフからアイテムとユーザノードを事前訓練されたLLMトークンにアライメントすることで、GLTAはLLMの推論能力を効果的に活用する。
さらに、エンドツーエンドのアイテム予測のためのトークンアライメントを最適化するために、GLLM(Graph-Language Logits Matching)を導入する。
論文 参考訳(メタデータ) (2025-02-26T02:19:10Z) - SPRec: Self-Play to Debias LLM-based Recommendation [23.875509546540904]
大規模言語モデル(LLM)はレコメンデーションシステムにおいて大きな注目を集めている。
SPRecは、過剰勧告を緩和し、追加のデータや手動による介入を必要とせずに公平性を向上させるために設計された新しいセルフプレイフレームワークである。
論文 参考訳(メタデータ) (2024-12-12T12:53:30Z) - SELF: Surrogate-light Feature Selection with Large Language Models in Deep Recommender Systems [51.09233156090496]
ディープレコメンデータシステムのためのSurrogatE-Light特徴選択法
SELFは、大規模言語モデルからのセマンティック推論と、代理モデルからのタスク固有の学習を統合する。
実世界のレコメンデータプラットフォームからの3つの公開データセットに関する総合的な実験は、SELFの有効性を検証する。
論文 参考訳(メタデータ) (2024-12-11T16:28:18Z) - RAZOR: Sharpening Knowledge by Cutting Bias with Unsupervised Text Rewriting [16.633948320306832]
手動で構築されたデータセットで一般的なバイアスは、トークンとラベルの間に急激な相関をもたらす可能性がある。
既存のデバイアス法は、しばしば特定のデータセットバイアスに関する事前の知識に依存している。
本稿では,ショートカット緩和のためのテキスト書き直しに基づく,新規で教師なし,データ重視のデバイアス処理手法であるRAZORを提案する。
論文 参考訳(メタデータ) (2024-12-10T17:02:58Z) - RosePO: Aligning LLM-based Recommenders with Human Values [38.029251417802044]
我々は、パーソナライズされた選好最適化(RosePO)を円滑にするための一般的なフレームワークを提案する。
RosePOは、トレーニング後の段階において、カスタマイズされた人的価値との整合性が向上する。
実世界の3つのデータセットの評価は,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-10-16T12:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。