論文の概要: Align Generative Artificial Intelligence with Human Preferences: A Novel Large Language Model Fine-Tuning Method for Online Review Management
- arxiv url: http://arxiv.org/abs/2604.21209v1
- Date: Thu, 23 Apr 2026 02:01:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.241633
- Title: Align Generative Artificial Intelligence with Human Preferences: A Novel Large Language Model Fine-Tuning Method for Online Review Management
- Title(参考訳): 人間の嗜好を考慮した生産的人工知能:オンラインレビュー管理のための新しい大規模言語モデルファインチューニング手法
- Authors: Yanan Wang, Yong Ge,
- Abstract要約: オンラインレビューの急速な増加に対応するのに必要な相当な人的労働力のために、オンラインレビューの大部分が未完成のままである。
生成AIは様々なタスクで顕著な成功を収めてきたが、汎用モデルであり、ドメイン固有の人間の好みとうまく一致しない可能性がある。
オンラインレビュー応答を生成するために,LLMをドメイン固有の人的嗜好と整合させる新しい選好微調整法を提案する。
- 参考スコア(独自算出の注目度): 8.484087427925632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online reviews have played a pivotal role in consumers' decision-making processes. Existing research has highlighted the significant impact of managerial review responses on customer relationship management and firm performance. However, a large portion of online reviews remains unaddressed due to the considerable human labor required to respond to the rapid growth of online reviews. While generative AI has achieved remarkable success in a range of tasks, they are general-purpose models and may not align well with domain-specific human preferences. To tailor these general generative AI models to domain-specific applications, finetuning is commonly employed. Nevertheless, several challenges persist in finetuning with domain-specific data, including hallucinations, difficulty in representing domain-specific human preferences, and over conservatism in offline policy optimization. To address these challenges, we propose a novel preference finetuning method to align an LLM with domain-specific human preferences for generating online review responses. Specifically, we first identify the source of hallucination and propose an effective context augmentation approach to mitigate the LLM hallucination. To represent human preferences, we propose a novel theory-driven preference finetuning approach that automatically constructs human preference pairs in the online review domain. Additionally, we propose a curriculum learning approach to further enhance preference finetuning. To overcome the challenge of over conservatism in existing offline preference finetuning method, we propose a novel density estimation-based support constraint method to relax the conservatism, and we mathematically prove its superior theoretical guarantees. Extensive evaluations substantiate the superiority of our proposed preference finetuning method.
- Abstract(参考訳): オンラインレビューは消費者の意思決定プロセスにおいて重要な役割を果たしてきた。
既存の研究は、顧客関係管理と企業業績に対する管理者レビューの反応が大きな影響を浮き彫りにした。
しかし、オンラインレビューの急速な増加に対応するのに必要な相当な人的労働力のために、オンラインレビューの大部分は未完成のままである。
生成AIは様々なタスクで顕著な成功を収めてきたが、汎用モデルであり、ドメイン固有の人間の好みとうまく一致しない可能性がある。
これらの一般的な生成AIモデルをドメイン固有のアプリケーションに合わせるために、ファインタニングが一般的に用いられる。
それでも、幻覚、ドメイン固有の人間の嗜好を表現することの難しさ、オフラインポリシー最適化における保守性など、ドメイン固有のデータの微調整にはいくつかの課題が続いている。
これらの課題に対処するために、オンラインレビュー応答を生成するために、LLMとドメイン固有の人間の嗜好を整合させる新しい選好微調整法を提案する。
具体的には、まず幻覚の原因を特定し、LLM幻覚を緩和するための効果的な文脈拡張アプローチを提案する。
人間の嗜好を表現するために,オンラインレビュードメインにおいて人選好ペアを自動的に構築する理論駆動の選好微調整手法を提案する。
また、嗜好の微調整をさらに強化するカリキュラム学習手法を提案する。
既存のオフライン選好微調整法において、保守主義を過度に克服するために、保守主義を緩和する新しい密度推定に基づくサポート制約法を提案し、その優れた理論的保証を数学的に証明する。
大規模評価は,提案した選好微調整法の優越性を裏付けるものである。
関連論文リスト
- Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It [81.50711040539566]
現在の大規模言語モデル(LLM)開発は、タスク解決と優先順位調整を別の課題として扱う。
静的ベンチマークを対話型パーソナライズタスクに変換する評価手法であるPreFDISCOを紹介する。
我々のフレームワークは、ユーザコンテキストに応じて、同じ質問が異なる推論チェーンを必要とするシナリオを作成します。
論文 参考訳(メタデータ) (2025-09-30T18:55:28Z) - The Limits of Preference Data for Post-Training [27.229909368242517]
この結果から,選好データは基本的に,結果に基づく最適化を著しく制限することがわかった。
我々は、この不合理性を投票理論を用いて形式化し、モデルが問合せに答える方法と、有権者が選択する候補を選択する方法との類似性を引き出す。
このことは、人間のフィードバックを必要とする領域にRLポストトレーニングの成功を拡大するために、基礎となる人間のスコアリングとアルゴリズムの革新が必要であることを示唆している。
論文 参考訳(メタデータ) (2025-05-26T13:26:15Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - TSO: Self-Training with Scaled Preference Optimization [14.3799656174528]
我々は、追加の報酬モデルを訓練することなく、自己学習による選好学習を行う、選好最適化のためのフレームワークTSOを提案する。
TSOは、モデル行列を構築し、人間の嗜好応答を取り入れることで、応答の多様性を高める。
実験の結果、TSOは様々なアライメント評価ベンチマークにおいて、既存の主流手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-31T05:37:01Z) - The Hitchhiker's Guide to Human Alignment with *PO [43.4130314879284]
我々は,高次パラメータの変動に対して同時に頑健であるアルゴリズムの同定に焦点をあてる。
解析の結果,広範に採用されているDPO法は,品質が劣る長大な応答を連続的に生成することがわかった。
これらの結果から,DPOアルゴリズムであるLN-DPOの精度が向上し,品質を損なうことなく,より簡潔な応答が得られることが示唆された。
論文 参考訳(メタデータ) (2024-07-21T17:35:20Z) - New Desiderata for Direct Preference Optimization [19.324743346476417]
我々は,既存のDPO手法が事前学習した基準モデルと,人間の嗜好の実証的尺度とを補間する能力において,未解決の欠点を浮き彫りにする新たな評価基準を導入する。
我々の洞察は、これらの制限を確実に緩和する代替のDPOライクな損失を動機付けます。
論文 参考訳(メタデータ) (2024-07-12T07:52:32Z) - Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF [80.32171988565999]
オンラインとオフラインのRLHFに統一的なアプローチを導入します。
VPOは、報酬関数の最大値推定を対応する値関数で正規化する。
テキスト要約とダイアログの実験は、VPOの実用性と有効性を検証する。
論文 参考訳(メタデータ) (2024-05-29T17:51:42Z) - Online Self-Preferring Language Models [34.22412851864247]
オンライン自己選好(OSP)言語モデルは、自己生成の応答ペアと自己判断の選好強度から学習する。
OSPは、広く使われている2つの人間の嗜好データセットにおいて、さまざまなメトリクスをまたいだ最先端のアライメント性能を達成する。
論文 参考訳(メタデータ) (2024-05-23T02:13:34Z) - Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。
本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。
提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。