論文の概要: Users as Annotators: LLM Preference Learning from Comparison Mode
- arxiv url: http://arxiv.org/abs/2510.13830v1
- Date: Fri, 10 Oct 2025 08:57:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.455431
- Title: Users as Annotators: LLM Preference Learning from Comparison Mode
- Title(参考訳): アノテーションとしてのユーザ: 比較モードからのLLM選好学習
- Authors: Zhongze Cai, Xiaocheng Li,
- Abstract要約: 我々は、比較モードからユーザアノテーションをペアワイズに選好するデータを収集する代替手法を検討する。
ユーザの潜在品質係数を推定する予測最大化アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 9.005226538625474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pairwise preference data have played an important role in the alignment of large language models (LLMs). Each sample of such data consists of a prompt, two different responses to the prompt, and a binary label indicating which of the two responses is better. The labels are usually annotated by professional human annotators. In this paper, we consider an alternative approach to collect pairwise preference data -- user annotation from comparison mode. With the increasingly wider adoption of LLMs among the population, users are contributing more and more of their preference labels through their daily interactions with the LLMs. The upside of such labels is that users are the best experts in judging the responses to their own queries/prompts, but the downside is the lack of quality control in these labels. In this paper, we consider a new idea of generating two responses from two different models or two different versions of the same model. The asymmetry allows us to make an inference of the user's data quality through our proposed user behavior model. We develop an expectation-maximization algorithm to estimate a latent quality factor of the user, and filter users' annotation data accordingly. The downstream task shows the effectiveness of our approach in both capturing the user behavior and data filtering for LLM alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)のアライメントにおいて、ペアワイズな嗜好データが重要な役割を担っている。
これらのデータのサンプルは、プロンプトとプロンプトに対する2つの異なる応答と、2つのレスポンスのどちらが良いかを示すバイナリラベルで構成されている。
ラベルは通常、専門家のアノテータによって注釈付けされる。
本稿では、比較モードからユーザアノテーションをペアワイズした嗜好データを収集する代替手法を検討する。
LLMが広く普及するにつれて、利用者はLLMとの日々の交流を通じて、より多くの好みラベルを投稿している。
このようなラベルのメリットは、ユーザが自身のクエリ/プロンプトに対する応答を判断する上で、最高の専門家であることですが、その欠点は、これらのラベルの品質管理の欠如にあります。
本稿では、2つの異なるモデルまたは2つの異なるモデルのモデルから2つの応答を生成する新しいアイデアについて考察する。
この非対称性により,提案したユーザ行動モデルを用いて,ユーザのデータ品質を推定することができる。
本研究では,ユーザの潜在品質因子を推定する予測最大化アルゴリズムを開発し,それに従ってユーザのアノテーションデータをフィルタリングする。
ダウンストリームタスクは、LLMアライメントのためのユーザ動作とデータフィルタリングの両方をキャプチャするアプローチの有効性を示す。
関連論文リスト
- LLM-Driven Dual-Level Multi-Interest Modeling for Recommendation [12.89199121698673]
大規模言語モデル (LLM) は、その豊富な知識と強力な推論能力により、多言語分析において大きな可能性を示す。
より効果的なレコメンデーションのためのLLM駆動型デュアルレベル多目的モデリングフレームワークを提案する。
実世界のデータセットの実験は、最先端の手法に対する我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2025-07-15T02:13:54Z) - Multi-agents based User Values Mining for Recommendation [52.26100802380767]
効率的なユーザ値抽出のためのゼロショットマルチLLM協調フレームワークを提案する。
本研究は,本質的な意味を保ちながら,項目内容のコンデンスにテキスト要約手法を適用した。
幻覚を緩和するために,評価役と監督役の2つの特殊エージェントの役割を導入する。
論文 参考訳(メタデータ) (2025-05-02T04:01:31Z) - HyPerAlign: Interpretable Personalized LLM Alignment via Hypothesis Generation [24.67727411391369]
HyPerAlignは、大規模言語モデルに対する解釈可能かつサンプル効率の仮説駆動パーソナライズアプローチである。
我々は2つの異なるパーソナライズタスク、すなわち著者帰属と熟考的アライメントについて実験を行った。
その結果、仮説駆動型パーソナライゼーションの方が好みに基づく微調整法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-29T18:01:46Z) - Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [51.9706400130481]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。
PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。
LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文 参考訳(メタデータ) (2025-04-19T08:16:10Z) - AdaptRec: A Self-Adaptive Framework for Sequential Recommendations with Large Language Models [10.52052172996229]
AdaptRecは、明示的な協調シグナルを組み込むことで、シーケンシャルなレコメンデーションのためにLarge Language Modelsを活用する、自己適応型のフラムワークである。
本研究では,その行動系列を自然言語に変換するユーザコンテキスト適応型レコメンデーション・プロンプトを開発し,これらの情報をレコメンデーション・プロセスに明示的に統合する。
AdaptRecの優れたパフォーマンスを示す実験では、HitRatio@1スコアの7.13%、18.16%、10.41%が現実世界のデータセットで大幅に改善されている。
論文 参考訳(メタデータ) (2025-04-06T00:30:50Z) - Beyond the Binary: Capturing Diverse Preferences With Reward Regularization [15.518838657050173]
この二項選択への依存は、現実のタスクにおいて対象ユーザのより広範囲で集約的な嗜好を捉えるものではない、と我々は主張する。
本稿では、既存の二分選好データセットを合成選好判断で拡張し、潜在的なユーザ不一致を推定する、シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-12-05T02:35:46Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - The Minority Matters: A Diversity-Promoting Collaborative Metric
Learning Algorithm [154.47590401735323]
CML(Collaborative Metric Learning)は、リコメンデーションシステムにおいて人気のある手法として最近登場した。
本稿では,ユーザが複数のカテゴリの関心を持つ,困難なシナリオに焦点をあてる。
textitDiversity-Promoting Collaborative Metric Learning (DPCML) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:02:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。