論文の概要: EventChat: Implementation and user-centric evaluation of a large language model-driven conversational recommender system for exploring leisure events in an SME context
- arxiv url: http://arxiv.org/abs/2407.04472v1
- Date: Fri, 5 Jul 2024 12:42:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 13:30:37.829480
- Title: EventChat: Implementation and user-centric evaluation of a large language model-driven conversational recommender system for exploring leisure events in an SME context
- Title(参考訳): EventChat:中小企業におけるレジャーイベント探索のための大規模言語モデル駆動型会話推薦システムの実装とユーザ中心評価
- Authors: Hannes Kunstmann, Joseph Ollier, Joel Persson, Florian von Wangenheim,
- Abstract要約: 大規模言語モデル(LLM)は、対話レコメンデーションシステム(CRS)の戦略的ポテンシャルにおいて大きな進化をもたらす。
しかし、研究は主に、エンドユーザー評価や企業への戦略的影響ではなく、LCM主導のCRSを実装するための技術フレームワークに焦点を当てている。
目的システムメトリクスと主観的ユーザ評価の両方を用いて,LCM駆動型CRSを中小企業環境で設計し,それに続く性能について詳述する。
- 参考スコア(独自算出の注目度): 0.9999629695552196
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) present an enormous evolution in the strategic potential of conversational recommender systems (CRS). Yet to date, research has predominantly focused upon technical frameworks to implement LLM-driven CRS, rather than end-user evaluations or strategic implications for firms, particularly from the perspective of a small to medium enterprises (SME) that makeup the bedrock of the global economy. In the current paper, we detail the design of an LLM-driven CRS in an SME setting, and its subsequent performance in the field using both objective system metrics and subjective user evaluations. While doing so, we additionally outline a short-form revised ResQue model for evaluating LLM-driven CRS, enabling replicability in a rapidly evolving field. Our results reveal good system performance from a user experience perspective (85.5% recommendation accuracy) but underscore latency, cost, and quality issues challenging business viability. Notably, with a median cost of $0.04 per interaction and a latency of 5.7s, cost-effectiveness and response time emerge as crucial areas for achieving a more user-friendly and economically viable LLM-driven CRS for SME settings. One major driver of these costs is the use of an advanced LLM as a ranker within the retrieval-augmented generation (RAG) technique. Our results additionally indicate that relying solely on approaches such as Prompt-based learning with ChatGPT as the underlying LLM makes it challenging to achieve satisfying quality in a production environment. Strategic considerations for SMEs deploying an LLM-driven CRS are outlined, particularly considering trade-offs in the current technical landscape.
- Abstract(参考訳): 大規模言語モデル (LLM) は、対話レコメンデーションシステム (CRS) の戦略的ポテンシャルにおいて大きな進化をもたらす。
しかし、これまでの研究は、特に世界経済の基盤となる中小企業(中小企業)の観点から、エンドユーザー評価や戦略的意味ではなく、LCM主導のCRSを実装するための技術的な枠組みに重点を置いてきた。
本稿では,LCM駆動型CRSを中小企業環境で設計し,それに続く性能を客観的システムメトリクスと主観的ユーザ評価の両方を用いて詳述する。
さらに,LLM駆動型CRSを評価するために,短時間で改良されたResQueモデルについて概説する。
ユーザエクスペリエンスの観点からは,システムパフォーマンスが良好であること(推奨精度85.5%)は明らかだが,ビジネスの生存性に疑問を呈するレイテンシ,コスト,品質の面では過小評価されている。
特に、インタラクション毎の中央値が0.04ドル、レイテンシが5.7sであり、よりユーザフレンドリーで経済的に実行可能なLCM駆動の中小企業向けCRSを実現するための重要な領域として、コスト効率と応答時間が現れる。
これらのコストの1つの主要な要因は、検索強化世代(RAG)技術において、高度なLCMをローダとして使用することである。
また,本研究の結果は,ChatGPTを基盤としたPromptベースの学習のようなアプローチにのみ依存することで,生産環境における満足度の向上が困難であることを示唆している。
LLM駆動型CRSを配備する中小企業の戦略的考察について概説する。
関連論文リスト
- Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models [71.8065384742686]
LMMS-EVALは50以上のタスクと10以上のモデルを持つ統一的で標準化されたマルチモーダルベンチマークフレームワークである。
LMMS-EVAL LITEは、カバー範囲と効率の両方を重視したプルーニング評価ツールキットである。
マルチモーダルなLIVEBENCHは、ニュースやオンラインフォーラムを継続的に更新し、野生におけるモデルの一般化能力を評価する。
論文 参考訳(メタデータ) (2024-07-17T17:51:53Z) - CEBench: A Benchmarking Toolkit for the Cost-Effectiveness of LLM Pipelines [29.25579967636023]
CEBenchは、オンラインの大規模言語モデルをベンチマークするためのオープンソースのツールキットである。
LLMデプロイメントに必要な支出と有効性の間の重要なトレードオフに焦点を当てている。
この能力は、コストへの影響を最小限にしつつ、有効性を最大化することを目的とした重要な意思決定プロセスをサポートします。
論文 参考訳(メタデータ) (2024-06-20T21:36:00Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Adapting LLMs for Efficient, Personalized Information Retrieval: Methods
and Implications [0.7832189413179361]
LLM(Large Language Models)は、人間に似たテキストの理解と生成に優れた言語モデルである。
本稿では,言語モデル(LLM)と情報検索(IR)システムの統合戦略について検討する。
論文 参考訳(メタデータ) (2023-11-21T02:01:01Z) - Cache me if you Can: an Online Cost-aware Teacher-Student framework to
Reduce the Calls to Large Language Models [13.799197575126442]
中小企業(中小企業)は、大規模なタスク固有のトレーニングデータセットを作成する費用を支払うことができない。
大規模言語モデルをプロンプトできるサードパーティサービスは、現在、通話1回あたりの支払いを必要としている。
本稿では,従来の応答をキャッシュし,ローカルな安価なモデルをトレーニングすることで,LCMへの呼び出しを削減できるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T10:05:07Z) - Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and Execution of LLM Agents in an Auction Arena [25.865825113847404]
オークションをシミュレートする新しい評価スイートであるAucArenaを紹介する。
我々は,最先端の大規模言語モデル(LLM)を用いて,入札エージェントによる計画と実行スキルのベンチマークを行う制御実験を行う。
論文 参考訳(メタデータ) (2023-10-09T14:22:09Z) - How Can Recommender Systems Benefit from Large Language Models: A Survey [82.06729592294322]
大きな言語モデル(LLM)は、印象的な汎用知性と人間のような能力を示している。
我々は,実世界のレコメンデータシステムにおけるパイプライン全体の観点から,この研究の方向性を包括的に調査する。
論文 参考訳(メタデータ) (2023-06-09T11:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。