論文の概要: BEAR: Towards Beam-Search-Aware Optimization for Recommendation with Large Language Models
- arxiv url: http://arxiv.org/abs/2601.22925v1
- Date: Fri, 30 Jan 2026 12:45:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.443132
- Title: BEAR: Towards Beam-Search-Aware Optimization for Recommendation with Large Language Models
- Title(参考訳): BEAR:大規模言語モデルを用いたレコメンデーションのためのビームサーチ-アウェア最適化に向けて
- Authors: Weiqin Yang, Bohao Wang, Zhenxiang Xu, Jiawei Chen, Shengjia Zhang, Jingbang Chen, Canghong Jin, Can Wang,
- Abstract要約: BEAR(Beam-Search-Aware Regularization)は、トレーニング中のビーム探索動作を明示的に考慮した、新しい微調整目標である。
4つの実世界のデータセットにわたる実験において、強力なベースラインを著しく上回る。
- 参考スコア(独自算出の注目度): 8.738350030995894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed a rapid surge in research leveraging Large Language Models (LLMs) for recommendation. These methods typically employ supervised fine-tuning (SFT) to adapt LLMs to recommendation scenarios, and utilize beam search during inference to efficiently retrieve $B$ top-ranked recommended items. However, we identify a critical training-inference inconsistency: while SFT optimizes the overall probability of positive items, it does not guarantee that such items will be retrieved by beam search even if they possess high overall probabilities. Due to the greedy pruning mechanism, beam search can prematurely discard a positive item once its prefix probability is insufficient. To address this inconsistency, we propose BEAR (Beam-SEarch-Aware Regularization), a novel fine-tuning objective that explicitly accounts for beam search behavior during training. Rather than directly simulating beam search for each instance during training, which is computationally prohibitive, BEAR enforces a relaxed necessary condition: each token in a positive item must rank within the top-$B$ candidate tokens at each decoding step. This objective effectively mitigates the risk of incorrect pruning while incurring negligible computational overhead compared to standard SFT. Extensive experiments across four real-world datasets demonstrate that BEAR significantly outperforms strong baselines. Code will be released upon acceptance.
- Abstract(参考訳): 近年、Large Language Models (LLMs) を利用した研究が急速に急増しているのを目撃している。
これらの手法は典型的には教師付き微調整(SFT)を用いてLLMをレコメンデーションシナリオに適応させ、推論中にビームサーチを利用してトップランクの推奨アイテムを効率よくB$で検索する。
SFTは、正の項目の全体的な確率を最適化するが、高い総合確率を持つ場合でもビームサーチによってそのような項目が検索されることは保証しない。
グリーディープルーニング機構により、ビームサーチはそのプレフィックス確率が不足すると、早期に正の項目を破棄することができる。
この不整合に対処するために、トレーニング中にビーム探索の振る舞いを明示的に考慮した新しい微調整対象であるBEAR(Beam-Search-Aware Regularization)を提案する。
トレーニング中の各インスタンスのビームサーチを直接シミュレートするのではなく、BEARは緩和された必要条件を強制する。
この目的は、標準のSFTと比較して、無視可能な計算オーバーヘッドを発生させながら、誤ったプルーニングのリスクを効果的に軽減する。
4つの実世界のデータセットにわたる大規模な実験は、BEARが強いベースラインを著しく上回ることを示した。
コードは受理時にリリースされる。
関連論文リスト
- BiXSE: Improving Dense Retrieval via Probabilistic Graded Relevance Distillation [6.272555849379284]
BiXSE は2値のクロスエントロピーをグレードレバレンススコアより最適化するポイントワイズトレーニング手法である。
アノテーションと計算コストを削減して、強力なパフォーマンスを実現する。
BiXSEは、密度の高い検索モデルをトレーニングするための堅牢でスケーラブルな代替手段を提供する。
論文 参考訳(メタデータ) (2025-08-09T02:15:17Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - Conditional Poisson Stochastic Beam Search [35.60062127942947]
条件付きポアソンビームサーチ(CPSBS)は、Coolらによる2019年のビームサーチ(SBS)より自然な代替品である。
CPSBSはSBSよりも低い分散とより効率的な推定器を生成し、高いエントロピー設定の改善を示す。
論文 参考訳(メタデータ) (2021-09-22T20:49:16Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Best-First Beam Search [78.71330480725668]
本研究では,ビームサーチの標準実装を10倍高速に実現可能であることを示す。
ダウンストリーム性能の面でも同様に有益な探索バイアスを有するBest-First Beam Searchのメモリ再生版を提案する。
論文 参考訳(メタデータ) (2020-07-08T05:56:01Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。