論文の概要: PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks
- arxiv url: http://arxiv.org/abs/2510.12409v1
- Date: Tue, 14 Oct 2025 11:42:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.298859
- Title: PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks
- Title(参考訳): 価格論理:複合観光価格課題に基づくLCMの評価
- Authors: Yunuo Liu, Dawei Zhu, Zena Al-Khalili, Dai Cheng, Yanjun Chen, Dietrich Klakow, Wei Zhang, Xiaoyu Shen,
- Abstract要約: PricingLogicは、42の現実世界の価格ポリシーから派生した予約要求に基づく300の自然言語質問で構成されている。
LLMの行の評価は、ルール解釈と算術的推論の体系的な失敗を実証し、難易度層における急激な性能低下を示す。
- 参考スコア(独自算出の注目度): 28.577623054100616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present PricingLogic, the first benchmark that probes whether Large Language Models(LLMs) can reliably automate tourism-related prices when multiple, overlapping fare rules apply. Travel agencies are eager to offload this error-prone task onto AI systems; however, deploying LLMs without verified reliability could result in significant financial losses and erode customer trust. PricingLogic comprises 300 natural-language questions based on booking requests derived from 42 real-world pricing policies, spanning two levels of difficulty: (i) basic customer-type pricing and (ii)bundled-tour calculations involving interacting discounts. Evaluations of a line of LLMs reveal a steep performance drop on the harder tier,exposing systematic failures in rule interpretation and arithmetic reasoning.These results highlight that, despite their general capabilities, today's LLMs remain unreliable in revenue-critical applications without further safeguards or domain adaptation. Our code and dataset are available at https://github.com/EIT-NLP/PricingLogic.
- Abstract(参考訳): 複数重複の運賃ルールを適用した場合、LLM(Large Language Models)が観光関連価格を確実に自動化できるかどうかを調査する最初のベンチマークであるPricingLogicを提示する。
旅行代理店は、このエラーが発生しやすいタスクをAIシステムにオフロードしたいと熱心に考えている。
PricingLogicは、42の現実世界の価格ポリシーから得られた予約要求に基づいて、300の自然言語質問で構成されている。
一 基本顧客型価格及び価格
(二)相互作用割引を含む有価証券計算
LLMの評価は、ルール解釈や算術的推論の体系的な失敗を実証し、難易度の高い性能低下を示すが、これらの結果は、その一般的な能力にもかかわらず、今日のLLMは、さらなる安全確保やドメイン適応なしに、収益クリティカルなアプリケーションでは信頼できないことを浮き彫りにしている。
私たちのコードとデータセットはhttps://github.com/EIT-NLP/PricingLogic.orgで公開されています。
関連論文リスト
- Understanding Structured Financial Data with LLMs: A Case Study on Fraud Detection [17.04809129025246]
FinFRE-RAGは、数値・分類属性のコンパクトなサブセットを自然言語にシリアライズするために重要誘導特徴量削減を適用した2段階のアプローチである。
LLMは人間の読みやすい説明を作成し、特徴分析を促進することができるため、詐欺分析者の手作業の負担を軽減できる可能性がある。
論文 参考訳(メタデータ) (2025-12-15T07:09:11Z) - Measuring What LLMs Think They Do: SHAP Faithfulness and Deployability on Financial Tabular Classification [4.0057196015831495]
大規模言語モデル(LLM)は分類タスクに大きな注目を集めている。
構造化データに対する信頼性は、特に金融リスク評価のような高リスクアプリケーションにおいて、まだ不明である。
本研究では, LLMを体系的に評価し, 財務分類タスクのSHAP値を生成する。
論文 参考訳(メタデータ) (2025-11-28T19:04:25Z) - Balancing Truthfulness and Informativeness with Uncertainty-Aware Instruction Fine-Tuning [79.48839334040197]
インストラクション微調整(IFT)は、大きな言語モデル(LLM)の知性を高めるが、その真偽を減少させる可能性がある。
本稿では,IFTデータセットにおける不慣れな知識がLLMの真偽にどのように悪影響を及ぼすかを実証的に示す。
この問題に対処するために、新しいIFTパラダイムである$UNIT_cut$と$UNIT_ref$を導入します。
論文 参考訳(メタデータ) (2025-02-17T16:10:30Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。
問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文 参考訳(メタデータ) (2025-02-09T02:26:15Z) - Autonomous Evaluation of LLMs for Truth Maintenance and Reasoning Tasks [20.072783454089098]
本稿では,大規模言語モデル (LLM) 評価を形式的タスクに拡張するための新しいベンチマークである AutoEval を提案する。
AutoEvalは最初のベンチマークパラダイムであり、人間のラベルなしでLLMの客観的評価をスケールするのに必要ないくつかの重要な利点を提供している。
論文 参考訳(メタデータ) (2024-10-11T00:56:37Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees [21.801053526411415]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。
高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。
SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
論文 参考訳(メタデータ) (2024-03-11T17:45:47Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Data-Centric Financial Large Language Models [27.464319154543173]
大規模言語モデル(LLM)は自然言語のタスクを約束するが、金融のような複雑なドメインに直接適用した場合に苦労する。
我々は、LLMが金融業務をよりうまく扱えるようにするために、データ中心のアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-07T04:53:31Z) - Enhancing Financial Sentiment Analysis via Retrieval Augmented Large
Language Models [11.154814189699735]
大規模な言語モデル (LLM) は様々なNLPタスクにおいて優れた性能を示した。
本稿では,金融感情分析のためのLLMフレームワークを提案する。
提案手法の精度は15%から48%向上し,F1得点を得た。
論文 参考訳(メタデータ) (2023-10-06T05:40:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。