論文の概要: TourMart: A Parametric Audit Instrument for Commission Steering in LLM Travel Agents
- arxiv url: http://arxiv.org/abs/2605.10440v1
- Date: Mon, 11 May 2026 12:11:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.796405
- Title: TourMart: A Parametric Audit Instrument for Commission Steering in LLM Travel Agents
- Title(参考訳): TourMart: LLMトラベルエージェントにおけるコミッショナーステアリングのためのパラメトリック監査装置
- Authors: Yao Liu,
- Abstract要約: TourMartは、コミッショナーガバナンスのためのインテリジェントシステム監査機器である。
6ゲート生産監査は、LCM開示障害(即時崩壊、拒否、内部IDリーク)を真の商用ステアリングから分離する。
- 参考スコア(独自算出の注目度): 3.5137191090796054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online travel agents (Booking, Trip.com, Expedia) have replaced ranked-list interfaces with conversational LLM agents that compress many options into one sentence of advice. Each booking earns the OTA commission and different suppliers pay different rates: the agent has a structural incentive to favor higher-margin recommendations. Whether any deployed agent does this, and by how much, no one can currently measure. Disclosure banners, conversion A/B testing, UI dark-pattern taxonomies, and generic LLM safety scores were built for older interfaces and miss the prose-recommendation surface where the steering happens. We propose TourMart, an applied intelligent-system audit instrument for LLM-OTA commission governance. Two governance levers -- lambda (gain on message-induced perception in the traveler's accept/reject decision) and kappa (budget-normalized cap on how far the message can shift perceived welfare) -- drive a paired counterfactual: holding the traveler and bundle fixed, the steering delta is read off between a commission-aware prompt and a minimum-disclosure factual template. A symmetric six-gate producer audit separates LLM-engineering failures (template collapse, refusal, internal-ID leakage) from genuine commercial steering. At deployed (lambda=1, kappa=0.05), a Qwen-14B reader shows +7.69pp steering (exact McNemar p=0.003); a Llama-3.1-8B reader shows +3.50pp in the same direction at n=143, with an extended-n supplement (n=270) confirming significance (+2.96pp, p=0.008). Across the (lambda, kappa) grid both arms pass family-wise scenario-clustered correction (p<0.001 / p=0.008). TourMart outputs a sentence a compliance report can quote: "at this deployment, 7.7 extra commission-steered recommendations per 100 paired traveler sessions."
- Abstract(参考訳): オンライン旅行エージェント(Booking、Trip.com、Expedia)は、ランクリストのインターフェースを会話型LLMエージェントに置き換え、多くのオプションを1つのアドバイス文に圧縮した。
各予約はOTAの手数料を受け取り、異なるサプライヤーが異なるレートで支払う。
デプロイされたエージェントがこれを行うかどうか、そしてどれだけの量で、現在誰も測定できない。
開示バナー、変換A/Bテスト、UIのダークパターン分類、ジェネリックLLM安全性スコアが、古いインターフェース用に構築され、ステアリングが発生する散文推奨面を見逃した。
本研究では, LLM-OTA 委任統治のための知的システム監査ツールである TourMart を提案する。
2つのガバナンスレバー -- ラムダ(旅行者の受け入れ/拒否決定におけるメッセージによる認識の獲得)とカッパ(メッセージが福祉をどの程度変化させるかの予算正規化キャップ) -- は、旅行者とバンドルを固定し、ステアリングデルタはコミッショナーが認識するプロンプトと最小開示のファクトテンプレートの間に読み上げられる、ペア化されたカウンターファクトを駆動します。
対称6ゲートプロデューサ監査は、LCMエンジニアリングの失敗(瞬間的崩壊、拒絶、内部IDリーク)を真の商用ステアリングから分離する。
展開時(lambda=1, kappa=0.05)、Qwen-14Bリーダーは+7.69ppステアリング(exact McNemar p=0.003)、Llama-3.1-8Bリーダーは+3.50ppをn=143で表示し、拡張nサプリメント(n=270)は重要性(+2.96pp, p=0.008)を確認する。
ラムダ、カッパ)グリッドを横切ると、両アームはファミリーワイドのシナリオクラスター補正(p<0.001 / p=0.008)をパスする。
TourMartは、コンプライアンスレポートが引用できる文を出力する。"このデプロイメントでは、100対の旅行者セッション毎に7.7の追加の委任されたレコメンデーション"である。
関連論文リスト
- Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses [57.20181537213498]
Agentic Harness Engineering (AHE)は、ハーネスエンジニアリングを自動化するクローズドループである。
AHEは3つの一致した可観測性柱を通じて課題に対処する。
10 AHE lift pass@1 on Terminal-Bench 2 from 69.7% to 77.0%。
SWE-bench-verifiedでは、種子よりも12%少ないトークンで合計成功率を上回り、ターミナルベンチ2では+5.1から+10.1ppのクロスファミリーゲインを得る。
論文 参考訳(メタデータ) (2026-04-28T16:55:02Z) - ActuBench: A Multi-Agent LLM Pipeline for Generation and Evaluation of Actuarial Reasoning Tasks [0.0]
ActuBenchは、アクチュアリアセスメントアイテムの自動生成と評価のためのパイプラインである。
1つのエージェントがアイテムをドラフトし、1つはイントラクタを構築し、3つ目は独立して両方のステージを検証し、バウンドワンショットの修復ループを駆動する。
アイテム、モデルごとのレスポンス、完全なリーダーボードは、ブラウズ可能なWebインターフェースとして公開される。
論文 参考訳(メタデータ) (2026-04-22T07:20:03Z) - Representational Collapse in Multi-Agent LLM Committees: Measurement and Diversity-Aware Consensus [0.0]
マルチエージェントLDM委員会は、異なるロールプロンプトの下で同じモデルを複製し、多数決によってアウトプットを集約する。
それぞれのエージェントのチェーン・オブ・シークレットの論理を組み込んで、100 GSM8Kの質問に3つのQwen2.5-14Bのエージェントでペアの類似度を測る。
DALCは、埋め込み幾何学から多様性重量を計算するトレーニングフリーコンセンサスプロトコルであり、GSM8Kでは87%、トークンコストでは84%に達する。
論文 参考訳(メタデータ) (2026-04-04T17:30:23Z) - Let the Agent Steer: Closed-Loop Ranking Optimization via Influence Exchange [9.300614085821612]
大規模レコメンデーションシステムに展開された、最初の完全自律型LCMによるランキング最適化エージェントであるSortifyを提案する。
エージェントは、評価最適化を継続的影響交換として再設定し、診断からパラメータ展開までの完全なループを人間の介入なしに閉じる。
論文 参考訳(メタデータ) (2026-03-29T16:58:29Z) - LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications [51.56484100374058]
評価をデプロイメント決定ワークフローに変換するLLMおよびRAGアプリケーションのための準備性ハーネスを提案する。
このシステムは、最小限のAPI契約の下で、自動ベンチマーク、OpenTelemetryオブザーバビリティ、CI品質ゲートを組み合わせる。
チケットルーティングとBEIRタスクのハーネスを、完全なAzureマトリックスカバレッジで評価する。
論文 参考訳(メタデータ) (2026-03-28T18:03:32Z) - PCN-Rec: Agentic Proof-Carrying Negotiation for Reliable Governance-Constrained Recommendation [0.0]
PCN-Rec(PCN-Rec)は、自然言語による推論を決定論的執行から切り離す、証明付きネゴシエーションパイプラインである。
MovieLens-100Kでは、PCN-Recが98.55%のパスレートを達成した。
論文 参考訳(メタデータ) (2026-01-14T15:00:00Z) - SABER: Small Actions, Big Errors -- Safeguarding Mutating Steps in LLM Agents [52.20768003832476]
我々は$$-Bench (Airline/Retail) および SWE-Bench Verified 上での実行トレースを分析する。
成功を失敗に戻すための、先進的な逸脱、最初期の行動、レベル分岐を形式化する。
モデルに依存しない,勾配のない,テスト時のセーフガードである cm を導入します。
論文 参考訳(メタデータ) (2025-11-26T01:28:22Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z) - Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch [72.97553348776425]
スーパーバイザード・ファインチューニング (SFT) LMの能力に影響を与えることなく、ほとんどのデルタパラメータを設定するためにDAREを導入する。
次に、DAREを汎用プラグインとして使用し、複数のSFTモデルのデルタパラメータを分散し、それらを単一のモデルにマージする。
また、DAREを使用して、Open Leaderboardで70億のパラメータを持つモデルの中で、第1位にランクインした統合LMを作成します。
論文 参考訳(メタデータ) (2023-11-06T13:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。