論文の概要: On Overcoming Miscalibrated Conversational Priors in LLM-based Chatbots
- arxiv url: http://arxiv.org/abs/2406.01633v1
- Date: Sat, 1 Jun 2024 15:54:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 21:31:36.167066
- Title: On Overcoming Miscalibrated Conversational Priors in LLM-based Chatbots
- Title(参考訳): LLM型チャットボットにおける過度な会話優先事項の克服について
- Authors: Christine Herlihy, Jennifer Neville, Tobias Schnabel, Adith Swaminathan,
- Abstract要約: 本研究では,Large Language Model (LLM) ベースのチャットボットを用いて推薦システムを構築する。
チャットボットが不特定要求に遭うと、応答が悪くなるのを観察する。
我々は,このような誤った応答傾向は,アノテータを用いたLPM微調整に起因していると推測する。
- 参考スコア(独自算出の注目度): 19.423566424346166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore the use of Large Language Model (LLM-based) chatbots to power recommender systems. We observe that the chatbots respond poorly when they encounter under-specified requests (e.g., they make incorrect assumptions, hedge with a long response, or refuse to answer). We conjecture that such miscalibrated response tendencies (i.e., conversational priors) can be attributed to LLM fine-tuning using annotators -- single-turn annotations may not capture multi-turn conversation utility, and the annotators' preferences may not even be representative of users interacting with a recommender system. We first analyze public LLM chat logs to conclude that query under-specification is common. Next, we study synthetic recommendation problems with configurable latent item utilities and frame them as Partially Observed Decision Processes (PODP). We find that pre-trained LLMs can be sub-optimal for PODPs and derive better policies that clarify under-specified queries when appropriate. Then, we re-calibrate LLMs by prompting them with learned control messages to approximate the improved policy. Finally, we show empirically that our lightweight learning approach effectively uses logged conversation data to re-calibrate the response strategies of LLM-based chatbots for recommendation tasks.
- Abstract(参考訳): 本稿では,Large Language Model (LLMをベースとした) チャットボットによる推薦システムの実現について検討する。
チャットボットが不明確でないリクエストに遭遇した場合(例えば、誤った仮定をしたり、長いレスポンスでヘッジしたり、答えを拒んだり)、応答が不十分になるのを観察します。
単一ターンアノテーションはマルチターンの会話ユーティリティをキャプチャできず、アノテータの好みはレコメンデータシステムと対話するユーザの代表ではないかもしれない。
まず、公開LLMチャットログを分析し、クエリアンダーセグメンテーションが一般的であると結論付ける。
次に、構成可能な潜在アイテムユーティリティを用いて合成レコメンデーション問題を研究し、それらを部分観測決定プロセス(PODP)としてフレーム化する。
事前学習したLLMはPODPに準最適であり、適切なときに不特定クエリを明らかにするためのより良いポリシーを導出できることが判明した。
そして、学習した制御メッセージでLSMを再校正し、改善されたポリシーを近似する。
最後に、我々の軽量学習手法は、ログ化された会話データを効果的に利用し、レコメンデーションタスクにLLMベースのチャットボットの応答戦略を再検討することを示した。
関連論文リスト
- Modeling Future Conversation Turns to Teach LLMs to Ask Clarifying Questions [45.04582353648683]
今後,予測結果のシミュレーションにより,選好ラベルを割り当てることを提案する。
これにより、LLMは、将来の順番で各ユーザの解釈に合わせた応答を生成することができるとき、明確な質問をすることを学ぶことができる。
我々は,各ユーザの解釈と期待された回答を再現できる質問を明確にする能力に基づいて,システム評価を行う。
論文 参考訳(メタデータ) (2024-10-17T17:29:04Z) - Large Language Model Driven Recommendation [34.45328907249946]
言語主導のレコメンデーションの出現は、リコメンデーションのための自然言語(NL)インタラクションの使用を解放した。
この章では、LLMの一般NL能力が、高度にパーソナライズされたRSを構築する新しい機会を導く方法について論じる。
論文 参考訳(メタデータ) (2024-08-20T15:36:24Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - CHIQ: Contextual History Enhancement for Improving Query Rewriting in Conversational Search [67.6104548484555]
我々は,オープンソースの大規模言語モデル(LLM)の機能を活用して,クエリ書き換え前の会話履歴の曖昧さを解消する2段階の手法であるCHIQを紹介する。
我々は、CHIQがほとんどの設定で最先端の結果をもたらす、よく確立された5つのベンチマークを実証する。
論文 参考訳(メタデータ) (2024-06-07T15:23:53Z) - Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training [33.57497419019826]
アクションベースのコントラスト自己学習は、多ターン会話におけるサンプル効率のよい対話ポリシー学習を可能にする。
ACTは、教師付き微調整とDPOのための標準的なアプローチよりも、相当な会話モデリングの改善を示す。
論文 参考訳(メタデータ) (2024-05-31T22:44:48Z) - Hidden in Plain Sight: Exploring Chat History Tampering in Interactive Language Models [12.920884182101142]
大規模言語モデル(LLM)は、実世界のアプリケーションで普及し、素晴らしいテキスト生成性能を示している。
LLMベースのチャットシステムは、対話的に振る舞うためには、事前に定義された構造に従って、事前のチャット履歴を入力のコンテキストとして統合する必要がある。
本稿では,目標モデルの事前知識を必要とせずに,LLM会話にユーザ提供履歴を注入するための体系的手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T16:36:47Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - PALR: Personalization Aware LLMs for Recommendation [7.407353565043918]
PALRは、ユーザ履歴の振る舞い(クリック、購入、評価など)と大きな言語モデル(LLM)を組み合わせることで、ユーザの好むアイテムを生成することを目的としている。
我々のソリューションは、様々なシーケンシャルなレコメンデーションタスクにおいて最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2023-05-12T17:21:33Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。