論文の概要: G-UBS: Towards Robust Understanding of Implicit Feedback via Group-Aware User Behavior Simulation
- arxiv url: http://arxiv.org/abs/2508.05709v1
- Date: Thu, 07 Aug 2025 07:26:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:05.950886
- Title: G-UBS: Towards Robust Understanding of Implicit Feedback via Group-Aware User Behavior Simulation
- Title(参考訳): G-UBS:グループ認識ユーザ行動シミュレーションによる不適切なフィードバックのロバスト理解に向けて
- Authors: Boyu Chen, Siran Chen, Zhengrong Yue, Kainan Yan, Chenyun Yu, Beibei Kong, Cheng Lei, Chengxiang Zhuo, Zang Li, Yali Wang,
- Abstract要約: 巨大な暗黙のフィードバックからユーザの好みを推測することは、大きな可能性を秘めている。
本稿では,G-UBS(Group-Aware User Behavior Simulation)パラダイムを提案する。
G-UBSは2つのキーエージェントを介して動作する。まず、ユーザグループマネージャ(UGM)がユーザを効果的にクラスタリングしてグループプロファイルを生成する。
第二に、UFM(User Feedback Modeler)は革新的なグループ認識強化学習アプローチを採用している。
- 参考スコア(独自算出の注目度): 15.424496368749738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: User feedback is critical for refining recommendation systems, yet explicit feedback (e.g., likes or dislikes) remains scarce in practice. As a more feasible alternative, inferring user preferences from massive implicit feedback has shown great potential (e.g., a user quickly skipping a recommended video usually indicates disinterest). Unfortunately, implicit feedback is often noisy: a user might skip a video due to accidental clicks or other reasons, rather than disliking it. Such noise can easily misjudge user interests, thereby undermining recommendation performance. To address this issue, we propose a novel Group-aware User Behavior Simulation (G-UBS) paradigm, which leverages contextual guidance from relevant user groups, enabling robust and in-depth interpretation of implicit feedback for individual users. Specifically, G-UBS operates via two key agents. First, the User Group Manager (UGM) effectively clusters users to generate group profiles utilizing a ``summarize-cluster-reflect" workflow based on LLMs. Second, the User Feedback Modeler (UFM) employs an innovative group-aware reinforcement learning approach, where each user is guided by the associated group profiles during the reinforcement learning process, allowing UFM to robustly and deeply examine the reasons behind implicit feedback. To assess our G-UBS paradigm, we have constructed a Video Recommendation benchmark with Implicit Feedback (IF-VR). To the best of our knowledge, this is the first multi-modal benchmark for implicit feedback evaluation in video recommendation, encompassing 15k users, 25k videos, and 933k interaction records with implicit feedback. Extensive experiments on IF-VR demonstrate that G-UBS significantly outperforms mainstream LLMs and MLLMs, with a 4.0% higher proportion of videos achieving a play rate > 30% and 14.9% higher reasoning accuracy on IF-VR.
- Abstract(参考訳): ユーザのフィードバックはレコメンデーションシステムを改善する上で重要なものですが、明示的なフィードバック(例えば、好き嫌いや嫌悪)は、実際には不足しています。
より実現可能な代替手段として、巨大な暗黙のフィードバックからユーザの好みを推測することは、大きな可能性を秘めている(例えば、推奨動画を素早くスキップすると、通常興味をそそられる)。
残念なことに、暗黙のフィードバックは、しばしばうるさい。ユーザーは、誤ってクリックしたり、他の理由でビデオをスキップするかもしれない。
このようなノイズは、ユーザの興味を軽視し、レコメンデーションパフォーマンスを損なう。
この問題に対処するために,関連するユーザグループからのコンテキストガイダンスを活用し,個々のユーザに対する暗黙的フィードバックの堅牢かつ深い解釈を可能にする,G-UBS(Group-Aware User Behavior Simulation)パラダイムを提案する。
具体的には、G-UBSは2つのキーエージェントを介して動作する。
まず、ユーザグループマネージャ(UGM)が効果的にクラスタ化して、LLMに基づいた‘summarize-cluster-reflect’ワークフローを使用してグループプロファイルを生成する。
第二に、UFM(User Feedback Modeler)は革新的なグループ認識強化学習アプローチを採用し、各ユーザは強化学習プロセス中に関連するグループプロファイルによってガイドされ、UFMは暗黙のフィードバックの背景にある理由をしっかりと深く調べることができる。
G-UBSパラダイムを評価するために,Implicit Feedback (IF-VR) を用いたビデオレコメンデーションベンチマークを構築した。
私たちの知る限り、これはビデオレコメンデーションにおける暗黙のフィードバック評価のための最初のマルチモーダルベンチマークであり、暗黙のフィードバックを伴う15kユーザ、25kビデオ、933kのインタラクションレコードを含んでいる。
IF-VRに関する大規模な実験により、G-UBSはメインストリームのLLMやMLLMを著しく上回り、プレイレートが30%以上で、IF-VRでの推論精度が14.9%高いビデオの割合で4.0%高いことが示されている。
関連論文リスト
- User Feedback in Human-LLM Dialogues: A Lens to Understand Users But Noisy as a Learning Signal [58.43749783815486]
本研究では,2つのユーザ-LMインタラクションデータセットにおける暗黙のユーザフィードバックについて検討する。
ユーザフィードバックの内容は、人間設計の短い質問において、モデル性能を向上させることができる。
また、ユーザフィードバックの有用性は、ユーザの最初のプロンプトの品質に大きく関係していることもわかりました。
論文 参考訳(メタデータ) (2025-07-30T23:33:29Z) - Reinforcement Learning from User Feedback [28.335218244885706]
本稿では,大規模言語モデルとユーザの好みを整合させるフレームワークであるReinforcement Learning from User Feedback (RLUF)を紹介する。
報奨モデル P[Love] をトレーニングし, LLM 応答がラブ反応を受ける可能性を予測する。
P[Love]は肯定的なフィードバックの増加を予測し,将来のユーザ行動の信頼性の高いオフライン評価手段として機能することを示す。
論文 参考訳(メタデータ) (2025-05-20T22:14:44Z) - Multi-agents based User Values Mining for Recommendation [52.26100802380767]
効率的なユーザ値抽出のためのゼロショットマルチLLM協調フレームワークを提案する。
本研究は,本質的な意味を保ちながら,項目内容のコンデンスにテキスト要約手法を適用した。
幻覚を緩和するために,評価役と監督役の2つの特殊エージェントの役割を導入する。
論文 参考訳(メタデータ) (2025-05-02T04:01:31Z) - Search-Based Interaction For Conversation Recommendation via Generative Reward Model Based Simulated User [117.82681846559909]
会話レコメンデーションシステム(CRS)は、マルチターンインタラクションを使用してユーザの好みを捉え、パーソナライズされたレコメンデーションを提供する。
本稿では,CRSと自動インタラクションを行うための生成報酬モデルに基づくシミュレーションユーザGRSUを提案する。
論文 参考訳(メタデータ) (2025-04-29T06:37:30Z) - WildFeedback: Aligning LLMs With In-situ User Interactions And Feedback [36.06000681394939]
WildFeedbackは、大規模言語モデル(LLM)との会話中にユーザからのフィードバックをその場で活用して、好みのデータセットを自動的に作成する新しいフレームワークである。
実験の結果,WildFeedbackデータセットを微調整したLCMは,ユーザの好みに合わせて大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2024-08-28T05:53:46Z) - Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - Enhancing Sequential Recommender with Large Language Models for Joint Video and Comment Recommendation [77.42486522565295]
我々は、パーソナライズされたビデオとコメントのレコメンデーションを共同で行うLSVCRと呼ばれる新しいレコメンデーション手法を提案する。
提案手法は,逐次レコメンデーション(SR)モデルと補足型大言語モデル(LLM)レコメンデーションという2つの重要なコンポーネントから構成される。
特に、コメント視聴時間の累積増加率は4.13%に達した。
論文 参考訳(メタデータ) (2024-03-20T13:14:29Z) - Learning from Negative User Feedback and Measuring Responsiveness for
Sequential Recommenders [13.762960304406016]
シーケンシャルレコメンデータのトレーニング目標に、明示的かつ暗黙的なネガティブなユーザフィードバックを導入する。
大規模産業レコメンデーションシステムを用いた実演実験により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-08-23T17:16:07Z) - ELIXIR: Learning from User Feedback on Explanations to Improve
Recommender Models [26.11434743591804]
説明に対するユーザフィードバックをユーザ好みのペアワイズ学習に活用する,ループ内人間フレームワーク ELIXIR を考案した。
elixirは、レコメンデーションと説明のペアに対するフィードバックを活用して、ユーザ固有の潜在選好ベクトルを学習する。
このフレームワークは、ランダムウォークとリスタートによる一般化グラフレコメンデーションを用いてインスタンス化される。
論文 参考訳(メタデータ) (2021-02-15T13:43:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。