論文の概要: Multi-Agent Conversational Online Learning for Adaptive LLM Response Identification
- arxiv url: http://arxiv.org/abs/2501.01849v1
- Date: Fri, 03 Jan 2025 14:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:11:10.416301
- Title: Multi-Agent Conversational Online Learning for Adaptive LLM Response Identification
- Title(参考訳): 適応型LLM応答同定のためのマルチエージェント対話型オンライン学習
- Authors: Xiangxiang Dai, Yuejin Xie, Maoli Liu, Xuchuang Wang, Zhuohua Li, Huanyu Wang, John C. S. Lui,
- Abstract要約: 適応LDM応答同定のためのtextitMACO (UnderlineMulti-underlineAgent UnderlineConversational UnderlineOnline Learning) を提案する。
ユーザの嗜好を喚起するための会話を適応的に行うための新しい対話機構を提案する。
cadi は、オンライン LLM 応答同定において、現在の最先端を著しく上回る。
- 参考スコア(独自算出の注目度): 31.120233988281328
- License:
- Abstract: The remarkable generative capability of large language models (LLMs) has sparked a growing interest in automatically generating responses for different applications. Given the dynamic nature of user preferences and the uncertainty of LLM response performance, it is crucial to design efficient online learning algorithms to identify optimal LLM responses (i.e., high-quality responses that also meet user preferences). Most existing online algorithms adopt a centralized approach and fail to leverage explicit user preferences for more efficient and personalized LLM response identification. In contrast, this paper introduces \textit{MACO} (\underline{M}ulti-\underline{A}gent \underline{C}onversational \underline{O}nline Learning for Adaptive LLM Response Identification): 1) The online LLM response identification process is accelerated by multiple local agents (such as smartphones), while enhancing data privacy; 2) A novel conversational mechanism is proposed to adaptively conduct conversations for soliciting user preferences (e.g., a preference for a humorous tone over a serious one in generated responses), so to minimize uncertainty in preference estimation. Our theoretical analysis demonstrates that \cadi\ is near-optimal regarding cumulative regret. Additionally, \cadi\ offers reduced communication costs and computational complexity by eliminating the traditional, computing-intensive ``G-optimal design" found in previous works. Extensive experiments with the open LLM \textit{Llama}, coupled with two different embedding models from Google and OpenAI for text vector representation, demonstrate that \cadi\ significantly outperforms the current state-of-the-art in online LLM response identification.
- Abstract(参考訳): 大規模言語モデル(LLM)の顕著な生成能力は、異なるアプリケーションに対する応答を自動的に生成することへの関心が高まっている。
ユーザの嗜好の動的な性質とLCM応答性能の不確実性を考えると、最適なLCM応答(すなわち、ユーザの嗜好を満たす高品質な応答)を特定するための効率的なオンライン学習アルゴリズムを設計することが重要である。
既存のオンラインアルゴリズムの多くは集中型アプローチを採用しており、より効率的でパーソナライズされたLSM応答識別のために明示的なユーザの好みを活用できない。
これとは対照的に,本稿では,適応LDM応答同定のための‘textit{MACO}(\underline{M}ulti-\underline{A}gent \underline{C}onversational \underline{O}nline Learning)を紹介する。
1) オンラインLCM応答識別プロセスは、複数のローカルエージェント(例えばスマートフォン)によって加速され、データのプライバシーが向上する。
2) ユーザの嗜好を誘うための会話を適応的に行うための新しい対話機構(例えば, 生成した応答における本音よりもユーモラスな音の好み)を提案し, 嗜好推定の不確実性を最小限に抑える。
我々の理論的分析は, 累積的後悔に関して, \cadi\ がほぼ最適であることを示している。
さらに、 \cadi\ は従来の計算集約型の ` `G-Optimal design' を排除し、通信コストと計算複雑性を低減させる。
オープン LLM \textit{Llama} による大規模な実験は、Google と OpenAI によるテキストベクトル表現のための2つの異なる埋め込みモデルと組み合わせることで、オンライン LLM 応答同定における現在の最先端よりも大幅に優れていることを示した。
関連論文リスト
- RL-based Query Rewriting with Distilled LLM for online E-Commerce Systems [19.674493253615235]
効率と効率のバランスをとる新しいQR用ハイブリッドパイプラインを提案する。
オンライン強化学習(RL)を用いて,オフラインの知識蒸留を併用し,リアルタイムフィードバックを用いて動的にクエリ書き換えを行う。
Amazon ESCIデータセットの実験結果は、クエリ関連性、多様性、適応性を大幅に改善したことを示している。
論文 参考訳(メタデータ) (2025-01-29T23:41:12Z) - LLM-AutoDiff: Auto-Differentiate Any LLM Workflow [58.56731133392544]
自動プロンプト工学(APE)のための新しいフレームワーク LLM-AutoDiff について紹介する。
LLMs-AutoDiffは、各テキスト入力をトレーニング可能なパラメータとして扱い、フリーズした後方エンジンを使用して、テキスト勾配に対するフィードバック・アキンを生成する。
精度とトレーニングコストの両方において、既存のテキスト勾配ベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-01-28T03:18:48Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Active Preference Inference using Language Models and Probabilistic Reasoning [13.523369679010685]
本稿では,大規模言語モデルによるユーザの嗜好の推測を支援する推論時アルゴリズムを提案する。
我々のアルゴリズムは, LLM を誘導することで条件分布が定義される確率モデルを用いている。
実商品を用いた簡易な対話型Webショッピング設定の結果, エントロピー低減アルゴリズムを備えたLCMは, ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-12-19T09:58:54Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。