論文の概要: Large Language Models in the Travel Domain: An Industrial Experience
- arxiv url: http://arxiv.org/abs/2507.22910v1
- Date: Fri, 18 Jul 2025 13:40:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-03 20:19:02.928614
- Title: Large Language Models in the Travel Domain: An Industrial Experience
- Title(参考訳): 旅行ドメインにおける大規模言語モデル--産業経験から
- Authors: Sergio Di Meglio, Aniello Somma, Luigi Libero Lucio Starace, Fabio Scippacercola, Giancarlo Sperlì, Sergio Di Martino,
- Abstract要約: 本稿では,大規模言語モデルをCALEIDOHOTELSに統合した産業ケーススタディを提案する。
この文脈では、QLoRAを微調整したMistral 7Bと、システムプロンプトを改良したMixtral 8x7Bの2つのよく知られたLCMを評価した。
この結果から,モデル品質と資源効率のトレードオフに関する実践的な知見が得られた。
- 参考スコア(独自算出の注目度): 5.101348168820694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online property booking platforms are widely used and rely heavily on consistent, up-to-date information about accommodation facilities, often sourced from third-party providers. However, these external data sources are frequently affected by incomplete or inconsistent details, which can frustrate users and result in a loss of market. In response to these challenges, we present an industrial case study involving the integration of Large Language Models (LLMs) into CALEIDOHOTELS, a property reservation platform developed by FERVENTO. We evaluate two well-known LLMs in this context: Mistral 7B, fine-tuned with QLoRA, and Mixtral 8x7B, utilized with a refined system prompt. Both models were assessed based on their ability to generate consistent and homogeneous descriptions while minimizing hallucinations. Mixtral 8x7B outperformed Mistral 7B in terms of completeness (99.6% vs. 93%), precision (98.8% vs. 96%), and hallucination rate (1.2% vs. 4%), producing shorter yet more concise content (249 vs. 277 words on average). However, this came at a significantly higher computational cost: 50GB VRAM and $1.61/hour versus 5GB and $0.16/hour for Mistral 7B. Our findings provide practical insights into the trade-offs between model quality and resource efficiency, offering guidance for deploying LLMs in production environments and demonstrating their effectiveness in enhancing the consistency and reliability of accommodation data.
- Abstract(参考訳): オンラインの物件予約プラットフォームは広く利用されており、しばしばサードパーティのプロバイダから供給される宿泊施設に関する一貫性のある最新の情報に大きく依存している。
しかし、これらの外部データソースは不完全あるいは一貫性のない詳細によって頻繁に影響を受けるため、ユーザをいらいらさせ、結果として市場が失われる可能性がある。
これらの課題に対応するために、ferVENTOが開発した不動産予約プラットフォームであるCALEIDOHOTELSにLLM(Large Language Models)を組み込んだ産業ケーススタディを提案する。
この文脈では、QLoRAを微調整したMistral 7Bと、システムプロンプトを改良したMixtral 8x7Bの2つのよく知られたLCMを評価した。
両モデルは幻覚を最小化しながら一貫した同質な記述を生成する能力に基づいて評価された。
混合8x7Bは、完全性(99.6%対93%)、精度(98.8%対96%)、幻覚率(1.2%対4%)でMistral 7Bを上回り、短いがより簡潔な内容(249対277語)を生み出した。
50GB VRAMと1.61ドル/時間に対して5GBは1.61ドル/時間、Mistral 7Bは0.16ドル/時間である。
本研究は, モデル品質と資源効率のトレードオフに関する実践的な知見を提供するとともに, LLMを生産環境に展開するためのガイダンスを提供し, 宿泊データの整合性と信頼性を高める上での有効性を実証する。
関連論文リスト
- Unifying Mixture of Experts and Multi-Head Latent Attention for Efficient Language Models [1.7272658301768147]
MoE-MLA-RoPEは、Mixture of Experts (MoE)とMulti-head Latent Attention (MLA)とRotary Position Embeddings (RoPE)を組み合わせた、効率的な言語モデリングのための新しいアーキテクチャの組み合わせである。
提案手法は,3つの重要なイノベーションを通じて,モデル容量と計算効率の基本的なトレードオフに対処する。
論文 参考訳(メタデータ) (2025-08-02T08:33:30Z) - Affordance Benchmark for MLLMs [38.62884479364572]
A4Benchはマルチモーダル大規模言語モデルの可視性を評価するために設計された新しいベンチマークである。
我々は17個のMLLM(9つのプロプライエタリと8つのオープンソース)を人的パフォーマンスに対して評価する。
プロプライエタリなモデルは一般的にオープンソースモデルよりも優れていますが、いずれも機能に制限があります。
論文 参考訳(メタデータ) (2025-06-01T08:26:34Z) - Structuring Radiology Reports: Challenging LLMs with Lightweight Models [5.01440254761063]
大規模言語モデル(LLM)は、臨床テキストの再構築、高い計算要求、透明性の欠如、データプライバシに関する懸念が現実的な展開を妨げていることを示す。
我々は,MIMIC-CXRおよびCheXpert Plusデータセットからの放射線学レポートを構造化するために,軽量エンコーダデコーダモデル(300Mパラメータ)を特にT5およびBERT2BERTで検討する。
我々の最良性能軽量モデルは、人間による注釈付きテストセット上で、プロンプトベースの手法で適応された全てのLCMより優れています。
論文 参考訳(メタデータ) (2025-05-30T20:12:51Z) - Performance Evaluation of Large Language Models in Bangla Consumer Health Query Summarization [1.2289361708127877]
本研究では,9大言語モデル(LLM)のゼロショット性能について検討する。
ROUGEメトリクスを用いてこれらのLCMを、細調整された最先端モデルであるBangla T5に対してベンチマークした。
その結果、ゼロショットLLMは微調整モデルと競合し、タスク固有の訓練を必要とせずに高品質なサマリーを達成できることを示した。
論文 参考訳(メタデータ) (2025-05-08T09:06:28Z) - LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning [76.82159851648711]
負対に対する埋め込みモデルの表現学習を動的に改善するフレームワークを提案する。
LLaVEは、最先端(SOTA)のパフォーマンスを実現する強力なベースラインを確立する。
LLaVEはゼロショット方式でテキストビデオ検索タスクを一般化し、高い性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T10:21:57Z) - Dr. SoW: Density Ratio of Strong-over-weak LLMs for Reducing the Cost of Human Annotation in Preference Tuning [15.776175440446414]
本稿では,人間のアノテーションへの依存を解消するコスト効率の高い方法であるDr.SoW(Density Ratio of Strong over Weak)を紹介する。
Dr.SoW は報奨信号として、より整列した LLM と低整列の LLM の対数密度比を用いる。
Dr.SoWによるデータを用いたLlama-3-8B-インストラクタを選好する。
論文 参考訳(メタデータ) (2024-11-04T18:54:39Z) - Closing the gap between open-source and commercial large language models for medical evidence summarization [20.60798771155072]
大規模言語モデル(LLM)は、医学的証拠の要約において大きな可能性を秘めている。
最近の研究は、プロプライエタリなLLMの応用に焦点を当てている。
オープンソースのLLMは透明性とカスタマイズを向上するが、そのパフォーマンスはプロプライエタリなものに比べて低下する。
論文 参考訳(メタデータ) (2024-07-25T05:03:01Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in
Self-Refined Open-Source Models [53.859446823312126]
SoTAは7Bから65Bまでのさまざまなサイズのオープンソースモデルを平均して、ベースラインのパフォーマンスから8.2%改善している。
厳密に言えば、Vicuna-7Bのような非常に小さなメモリフットプリントを持つモデルでさえ、全体的な11.74%の改善と、高い創造性、オープンエンドタスクの25.39%の改善を示している。
論文 参考訳(メタデータ) (2023-10-11T15:56:00Z) - Mistral 7B [62.17530433867458]
Mistral 7Bはすべての評価ベンチマークでLlama 2 13B、推論、数学、コード生成でLlama 1 34Bを上回っている。
また、命令に従うように微調整されたモデルも提供します。 Mistral 7B -- Instructは、Llama 2 13Bを越え、人間と自動化ベンチマークの両方でチャットモデルを提供します。
論文 参考訳(メタデータ) (2023-10-10T17:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。