論文の概要: Internalizing Multi-Agent Reasoning for Accurate and Efficient LLM-based Recommendation
- arxiv url: http://arxiv.org/abs/2602.09829v1
- Date: Tue, 10 Feb 2026 14:36:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.595975
- Title: Internalizing Multi-Agent Reasoning for Accurate and Efficient LLM-based Recommendation
- Title(参考訳): 高精度かつ効率的なLCMリコメンデーションのためのマルチエージェント推論
- Authors: Yang Wu, Haoze Wang, Qian Li, Jun Zhang, Huan Yu, Jie Jiang,
- Abstract要約: LLM(Large Language Models)は、幅広い世界の知識と意味論的推論を活用して、ユーザの意図を解釈することでレコメンデーションシステムを再構築している。
単エージェント軌道アライメントレコメンダ(STAR)を開発するための軌道駆動型内部化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.9032468841993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are reshaping recommender systems by leveraging extensive world knowledge and semantic reasoning to interpret user intent. However, effectively integrating these capabilities with collaborative signals while avoiding prohibitive inference latency remains a critical bottleneck. To address this, we propose a trajectory-driven internalization framework to develop a Single-agent Trajectory-Aligned Recommender (STAR). Specifically, to internalize complex reasoning capabilities into a single efficient model, we first design a multi-agent teacher system capable of multi-turn tool usage and reflection. This teacher utilizes a Collaborative Signal Translation mechanism to explicitly convert latent behavioral patterns into descriptive natural language evidence to enhance reasoning accuracy. Subsequently, a trajectory-driven distillation pipeline transfers this agentic logic, including planning, tool usage, and self-reflection, into the compact STAR model. Extensive experiments demonstrate that STAR surpasses its teacher by 8.7% to 39.5% while eliminating iterative latency, paving the way for real-time, reasoning-enhanced recommendation.
- Abstract(参考訳): LLM(Large Language Models)は、幅広い世界の知識と意味論的推論を活用して、ユーザの意図を解釈することでレコメンデーションシステムを再構築している。
しかし、これらの機能を協調的な信号と効果的に統合し、禁忌な推論レイテンシを回避することは、依然として重大なボトルネックである。
そこで本稿では,Single-agent Trajectory-Aligned Recommender (STAR) を開発するためのトラジェクトリ駆動型内部化フレームワークを提案する。
具体的には、複雑な推論能力を単一の効率的なモデルに内在化するために、まずマルチターンツールの使用とリフレクションが可能なマルチエージェント教師システムを設計する。
この教師は、協調信号翻訳機構を用いて、潜在行動パターンを記述的な自然言語証拠に明示的に変換し、推論精度を高める。
その後、軌道駆動蒸留パイプラインは、計画、ツールの使用、自己回帰を含むこのエージェントロジックをコンパクトなSTARモデルに転送する。
広範囲にわたる実験により、STARは教師を8.7%から39.5%上回り、反復的な遅延を排除し、リアルタイムな推論を推奨する道を開いた。
関連論文リスト
- Endogenous Reprompting: Self-Evolving Cognitive Alignment for Unified Multimodal Models [23.128973540926552]
内因性再増殖は、モデルの理解を明確な生成的推論ステップに変換する。
評価精度,再現効率,生成品質において,SEERは一貫して最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2026-01-28T06:54:36Z) - RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering [62.63376387138257]
本稿では,アクティベーション空間における大規模言語モデル(LLM)推論を適応的に制御するプラグイン・アンド・プレイ介入フレームワークを提案する。
RISERは再利用可能な推論ベクトルのライブラリを構築し、軽量ルータを使用して各入力に対して動的に構成する。
ルーターは、タスクレベルの報酬の下で強化学習を通じて最適化され、緊急かつ構成的な方法で潜在する認知的プリミティブを活性化する。
論文 参考訳(メタデータ) (2026-01-14T08:04:33Z) - PILOT: Planning via Internalized Latent Optimization Trajectories for Large Language Models [51.43746425777865]
大規模言語モデル(LLM)は、しばしばグローバル戦略を定式化する能力に欠けており、長い水平タスクにおけるエラーの伝播につながる。
PILOTは,大規模モデルの戦略的監視を本質的な潜伏誘導に内部化するためのフレームワークである。
論文 参考訳(メタデータ) (2026-01-07T12:38:56Z) - Towards Continuous Intelligence Growth: Self-Training, Continual Learning, and Dual-Scale Memory in SuperIntelliAgent [10.571643330948858]
SuperIntelliAgentは、学習可能な小さな拡散モデル(学習者)と凍結した大言語モデル(検証者)を結合するエージェント学習フレームワークである。
従来の教師付き微調整とは異なり、SuperIntelliAgentはアノテーションなしで自律的に学習する。
トレーニング可能な学習者と推論可能な検証器をペアリングすることは、知性を成長させる最小限の信頼性単位となると仮定する。
論文 参考訳(メタデータ) (2025-11-28T18:32:49Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - From What to Why: Thought-Space Recommendation with Small Language Models [2.134948383299948]
大規模言語モデル(LLM)は推論の強化を通じて高度なレコメンデーション機能を備えているが、実際のデプロイメントには大きな課題がある。
SLM(Small Language Models)は効率的な代替手段を提供するが、推奨する推論機能は未検討のままである。
PULSE(Preference Understanding by Latent Semantic Embeddings)は,SLM生成論理をディレクター学習信号として扱うフレームワークである。
論文 参考訳(メタデータ) (2025-10-08T11:22:26Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Training Agents with Weakly Supervised Feedback from Large Language Models [19.216542820742607]
本稿では,批判的LSMからの弱教師付き信号を用いたLSMエージェントの新しいトレーニング手法を提案する。
エージェントは反復的に訓練され、まず環境相互作用を通じて軌道を生成する。
API-bankデータセットのテストでは、エージェントの能力とGPT-4に匹敵するパフォーマンスが一貫して改善されている。
論文 参考訳(メタデータ) (2024-11-29T08:47:04Z) - DRDT: Dynamic Reflection with Divergent Thinking for LLM-based
Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。
我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。
6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-12-18T16:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。