論文の概要: PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks
- arxiv url: http://arxiv.org/abs/2510.12409v1
- Date: Tue, 14 Oct 2025 11:42:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.298859
- Title: PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks
- Title(参考訳): 価格論理:複合観光価格課題に基づくLCMの評価
- Authors: Yunuo Liu, Dawei Zhu, Zena Al-Khalili, Dai Cheng, Yanjun Chen, Dietrich Klakow, Wei Zhang, Xiaoyu Shen,
- Abstract要約: PricingLogicは、42の現実世界の価格ポリシーから派生した予約要求に基づく300の自然言語質問で構成されている。
LLMの行の評価は、ルール解釈と算術的推論の体系的な失敗を実証し、難易度層における急激な性能低下を示す。
- 参考スコア(独自算出の注目度): 28.577623054100616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present PricingLogic, the first benchmark that probes whether Large Language Models(LLMs) can reliably automate tourism-related prices when multiple, overlapping fare rules apply. Travel agencies are eager to offload this error-prone task onto AI systems; however, deploying LLMs without verified reliability could result in significant financial losses and erode customer trust. PricingLogic comprises 300 natural-language questions based on booking requests derived from 42 real-world pricing policies, spanning two levels of difficulty: (i) basic customer-type pricing and (ii)bundled-tour calculations involving interacting discounts. Evaluations of a line of LLMs reveal a steep performance drop on the harder tier,exposing systematic failures in rule interpretation and arithmetic reasoning.These results highlight that, despite their general capabilities, today's LLMs remain unreliable in revenue-critical applications without further safeguards or domain adaptation. Our code and dataset are available at https://github.com/EIT-NLP/PricingLogic.
- Abstract(参考訳): 複数重複の運賃ルールを適用した場合、LLM(Large Language Models)が観光関連価格を確実に自動化できるかどうかを調査する最初のベンチマークであるPricingLogicを提示する。
旅行代理店は、このエラーが発生しやすいタスクをAIシステムにオフロードしたいと熱心に考えている。
PricingLogicは、42の現実世界の価格ポリシーから得られた予約要求に基づいて、300の自然言語質問で構成されている。
一 基本顧客型価格及び価格
(二)相互作用割引を含む有価証券計算
LLMの評価は、ルール解釈や算術的推論の体系的な失敗を実証し、難易度の高い性能低下を示すが、これらの結果は、その一般的な能力にもかかわらず、今日のLLMは、さらなる安全確保やドメイン適応なしに、収益クリティカルなアプリケーションでは信頼できないことを浮き彫りにしている。
私たちのコードとデータセットはhttps://github.com/EIT-NLP/PricingLogic.orgで公開されています。
関連論文リスト
- Balancing Truthfulness and Informativeness with Uncertainty-Aware Instruction Fine-Tuning [79.48839334040197]
インストラクション微調整(IFT)は、大きな言語モデル(LLM)の知性を高めるが、その真偽を減少させる可能性がある。
本稿では,IFTデータセットにおける不慣れな知識がLLMの真偽にどのように悪影響を及ぼすかを実証的に示す。
この問題に対処するために、新しいIFTパラダイムである$UNIT_cut$と$UNIT_ref$を導入します。
論文 参考訳(メタデータ) (2025-02-17T16:10:30Z) - Autonomous Evaluation of LLMs for Truth Maintenance and Reasoning Tasks [20.072783454089098]
本稿では,大規模言語モデル (LLM) 評価を形式的タスクに拡張するための新しいベンチマークである AutoEval を提案する。
AutoEvalは最初のベンチマークパラダイムであり、人間のラベルなしでLLMの客観的評価をスケールするのに必要ないくつかの重要な利点を提供している。
論文 参考訳(メタデータ) (2024-10-11T00:56:37Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Data-Centric Financial Large Language Models [27.464319154543173]
大規模言語モデル(LLM)は自然言語のタスクを約束するが、金融のような複雑なドメインに直接適用した場合に苦労する。
我々は、LLMが金融業務をよりうまく扱えるようにするために、データ中心のアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-07T04:53:31Z) - Enhancing Financial Sentiment Analysis via Retrieval Augmented Large
Language Models [11.154814189699735]
大規模な言語モデル (LLM) は様々なNLPタスクにおいて優れた性能を示した。
本稿では,金融感情分析のためのLLMフレームワークを提案する。
提案手法の精度は15%から48%向上し,F1得点を得た。
論文 参考訳(メタデータ) (2023-10-06T05:40:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。