論文の概要: Extended Inductive Reasoning for Personalized Preference Inference from Behavioral Signals
- arxiv url: http://arxiv.org/abs/2505.18071v1
- Date: Fri, 23 May 2025 16:16:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.221168
- Title: Extended Inductive Reasoning for Personalized Preference Inference from Behavioral Signals
- Title(参考訳): 行動信号からのパーソナライズされた選好推論のための拡張帰納推論
- Authors: Jia-Nan Li, Jian Guan, Wei Wu, Rui Yan,
- Abstract要約: 本稿では,パーソナライズされた選好推論のレンズを用いた大規模言語モデル(LLM)の拡張帰納的推論について検討する。
我々は,ユーザインタラクション履歴における行動信号からの系統的な選好推定を可能にするために,拡張推論連鎖を利用したtextscAlignXploreを提案する。
我々は、textscAlignXploreが、ドメイン内およびドメイン外のベンチマークで平均11.05%、バックボーンモデルよりも大幅に改善されていることを実証した。
- 参考スコア(独自算出の注目度): 45.019257216564036
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have demonstrated significant success in complex reasoning tasks such as math and coding. In contrast to these tasks where deductive reasoning predominates, inductive reasoning\textemdash the ability to derive general rules from incomplete evidence, remains underexplored. This paper investigates extended inductive reasoning in LLMs through the lens of personalized preference inference, a critical challenge in LLM alignment where current approaches struggle to capture diverse user preferences. The task demands strong inductive reasoning capabilities as user preferences are typically embedded implicitly across various interaction forms, requiring models to synthesize consistent preference patterns from scattered signals. We propose \textsc{AlignXplore}, a model that leverages extended reasoning chains to enable systematic preference inference from behavioral signals in users' interaction histories. We develop \textsc{AlignXplore} by combining cold-start training based on synthetic data with subsequent online reinforcement learning. Through extensive experiments, we demonstrate that \textsc{AlignXplore} achieves substantial improvements over the backbone model by an average of 11.05\% on in-domain and out-of-domain benchmarks, while maintaining strong generalization ability across different input formats and downstream models. Further analyses establish best practices for preference inference learning through systematic comparison of reward modeling strategies, while revealing the emergence of human-like inductive reasoning patterns during training.
- Abstract(参考訳): 大規模言語モデル(LLM)は数学やコーディングといった複雑な推論タスクにおいて大きな成功を収めている。
帰納的推論が優先されるこれらのタスクとは対照的に、帰納的推論(inductive reasoning)\textemdash は不完全な証拠から一般の規則を導出する能力を持つが、まだ未解明のままである。
本稿では,LLMにおける多種多様なユーザの嗜好を捉えるのに苦戦しているLLMアライメントにおける重要な課題である,パーソナライズされた選好推論のレンズによるLLMの帰納的推論の拡張について検討する。
このタスクは、ユーザーの嗜好が様々な相互作用形式に暗黙的に埋め込まれるため、強い帰納的推論能力を必要とし、散在する信号から一貫した選好パターンを合成する必要がある。
本稿では,ユーザのインタラクション履歴における行動信号からの系統的な選好推定を可能にするために,拡張推論チェーンを利用したモデルである‘textsc{AlignXplore} を提案する。
我々は,合成データに基づく冷間開始学習とその後のオンライン強化学習を組み合わせることで,「textsc{AlignXplore}」を開発する。
広範にわたる実験により, 入力形式やダウンストリームモデルにまたがる強力な一般化能力を維持しつつ, ドメイン内およびドメイン外ベンチマークで平均11.05\%のバックボーンモデルに対する大幅な改善を実現した。
さらに、報酬モデル戦略の体系的比較を通じて、嗜好推論学習のためのベストプラクティスを確立し、トレーニング中に人間のような帰納的推論パターンが出現することを明らかにする。
関連論文リスト
- LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
LARESは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上することを示す。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。
RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。
本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:33:11Z) - LogiDynamics: Unraveling the Dynamics of Logical Inference in Large Language Model Reasoning [49.58786377307728]
本稿では、類似推論のための制御された評価環境を導入することにより、探索的アプローチを採用する。
帰納的,帰納的,帰納的,帰納的な推論パイプラインの比較力学を解析する。
仮説選択や検証,洗練といった高度なパラダイムを考察し,論理的推論のスケールアップの可能性を明らかにする。
論文 参考訳(メタデータ) (2025-02-16T15:54:53Z) - Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)の整合化に成功している。
我々は、長さバイアス軽減と長さ指示に従うモデルの性能を高めるために、$textbfR$esponse-$textbfc$onditioned $textbfB$radley-$textbfT$erry (Rc-BT)モデルを導入する。
また、報酬モデルと直接ポリシー最適化のためにRc-BTモデルを利用するRc-RMおよびRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z) - PRefLexOR: Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning and Agentic Thinking [0.0]
PRefLexORは、好みの最適化と強化学習の概念を組み合わせることで、モデルを自己学習可能にする。
本研究は, 生体材料科学の応用に焦点をあて, 様々なケーススタディでその手法を実証する。
論文 参考訳(メタデータ) (2024-10-16T08:46:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。