論文の概要: Anchor-and-Resume Concession Under Dynamic Pricing for LLM-Augmented Freight Negotiation
- arxiv url: http://arxiv.org/abs/2604.20732v1
- Date: Wed, 22 Apr 2026 16:17:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.224163
- Title: Anchor-and-Resume Concession Under Dynamic Pricing for LLM-Augmented Freight Negotiation
- Title(参考訳): LLM強化軽度ネゴシエーションにおける動的価格設定時のアンカー・アンド・レサームの譲歩
- Authors: Hoang Nguyen, Lu Wang, Marta Gaia Bras,
- Abstract要約: ライヴスプレッドから$を導出することで、適応が可能になるが、新しい問題が発生する: 価格変更によって、公式が以前のオファーを撤回し、モノトニック性に違反する可能性がある。
両制約に対処する2次元アンカー・アンド・レジュームフレームワークを提案する。
スプレッド由来の$$は、各負荷のマージン構造を正しい譲歩姿勢にマッピングする一方、アンカー・アンド・レジューム機構は、任意の価格シフトの下で単調に非減少するオファーを保証する。
- 参考スコア(独自算出の注目度): 5.225967186005105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Freight brokerages negotiate thousands of carrier rates daily under dynamic pricing conditions where models frequently revise targets mid-conversation. Classical time-dependent concession frameworks use a fixed shape parameter $β$ that cannot adapt to these updates. Deriving $β$ from the live spread enables adaptation but introduces a new problem: a pricing shift can cause the formula to retract a previous offer, violating monotonicity. LLM-powered brokers offer flexibility but require expensive reasoning models, produce non-deterministic pricing, and remain vulnerable to prompt injection. We propose a two-index anchor-and-resume framework that addresses both limitations. A spread-derived $β$ maps each load's margin structure to the correct concession posture, while the anchor-and-resume mechanism guarantees monotonically non-decreasing offers under arbitrary pricing shifts. All pricing decisions remain in a deterministic formula; the LLM, when used, serves only as a natural-language translation layer. Empirical evaluation across 115,125 negotiations shows that the adaptive $β$ tailors behavior by regime: in narrow spreads, it concedes quickly to prioritize deal closure and load coverage; in medium and wide spreads, it matches or exceeds the best fixed-$β$ baselines in broker savings. Against an unconstrained 20-billion-parameter LLM broker, it achieves similar agreement rates and savings. Against LLM-powered carriers as more realistic stochastic counterparties, it maintains comparable savings and higher agreement rates than against rule-based opponents. By decoupling the LLM from pricing logic, the framework scales horizontally to thousands of concurrent negotiations with negligible inference cost and transparent decision-making.
- Abstract(参考訳): 貨物ブローカーは、ダイナミックな価格条件下で毎日数千のキャリアレートを交渉する。
古典的な時間依存の譲歩フレームワークは、これらの更新に適応できない固定形パラメータ$β$を使用する。
ライブスプレッドから$β$を導出することで、適応が可能になるが、新しい問題が発生する。
LLMを動力とするブローカーは柔軟性を提供するが、高価な推論モデルを必要とし、非決定論的価格を生成し、迅速なインジェクションに弱いままである。
両制約に対処する2次元アンカー・アンド・レジュームフレームワークを提案する。
スプレッド由来の$β$は、各負荷のマージン構造を正しい譲歩姿勢にマッピングする一方、アンカー・アンド・レジューム機構は、任意の価格シフトの下で単調に非減少のオファーを保証する。
すべての価格決定は決定論的公式のままであり、LLMは使用時には自然言語翻訳層としてのみ機能する。
115,125の交渉における実証的な評価によると、アダプティブな$β$テーラーの行動は政権によるものである。狭いスプレッドでは、取引の閉鎖と負荷のカバーを迅速に優先順位付けし、中規模と広範囲のスプレッドではブローカー貯蓄において最高の固定$β$ベースラインと一致または超えている。
制限のない20ビリオンパラメートルのLLMブローカーに対して、同様の合意率と貯蓄を達成する。
LLMを駆使したキャリアがより現実的な確率的なキャリアであるのに対して、ルールベースのキャリアと同等の貯蓄と合意率を維持している。
LLMを価格論理から切り離すことで、フレームワークは、無視できる推論コストと透明な意思決定で数千の同時交渉に水平にスケールする。
関連論文リスト
- Byzantine-Robust and Differentially Private Federated Optimization under Weaker Assumptions [89.52532304099522]
フェデレートラーニング(FL)は、クライアントが生データを集中せずに共有モデルを共同でトレーニングすることを可能にし、固有のプライバシーレベルを提供する。
グラデーションとモデル更新は機密情報を漏洩する可能性があるが、悪意のあるサーバはビザンティン操作のような敵攻撃をマウントする可能性がある。
これらの脆弱性は、統合されたフレームワーク内の差分プライバシー(DP)とビザンチンの堅牢性に対処する必要性を強調している。
Byz-Clip21-SGD2Mを提案する。
論文 参考訳(メタデータ) (2026-03-24T17:39:09Z) - Socially-Weighted Alignment: A Game-Theoretic Framework for Multi-Agent LLM Systems [17.658093330392052]
本稿では,エージェントの個人目的と集団福祉の推定を補間することにより,推論時間決定の修正を行うゲーム理論フレームワークを提案する。
以上の結果から, SWAは, 過負荷下での需要増加のために, エージェントがもはや限界的なインセンティブを持たない, 臨界しきい値$*=(n-)/(n-1)$を誘導することを示した。
論文 参考訳(メタデータ) (2026-02-16T05:17:58Z) - SCOPE: Selective Conformal Optimized Pairwise LLM Judging [16.73004625486562]
大規模言語モデル (LLMs) は、コストのかかる人間の選好ラベルをペア評価で置き換えるために、裁判官としてますます使われている。
実用性にも拘わらず、LLMの審査員は、誤校正や体系的な偏見に悩まされる傾向にある。
本稿では,有限サンプル統計保証から選択的に判断するフレームワークであるSCOPEを提案する。
論文 参考訳(メタデータ) (2026-02-13T17:10:43Z) - Mitigating Mismatch within Reference-based Preference Optimization [55.07698254211876]
直接選好最適化(DPO)は、大規模な言語モデルのオフライン選好アライメントのデファクトスタンダードとなっている。
DPOは、信頼された領域内で更新を規則化することでトレーニングを安定化する参照に対して、各更新を重み付けする。
この依存は、参照モデルが拒否された応答を好む悲観的なペアにとって問題となる。
DPOを変更して、$_-_mathrmref$を$_-max0,_mathrmref$に置き換えることで、悲観的な場合、参照を中立的に扱うようにします。
論文 参考訳(メタデータ) (2026-02-12T12:55:51Z) - Guardrailed Elasticity Pricing: A Churn-Aware Forecasting Playbook for Subscription Strategy [0.0]
本稿では,サブスクリプション価格を動的に保護された意思決定システムとして運用するマーケティング分析フレームワークを提案する。
季節ごとの時系列モデルをツリーベースの学習者とブレンドし、モンテカルロシナリオテストを実行してリスクエンベロープをマップし、制約付き最適化を解決する。
このフレームワークは,フラットな価格からダイナミックな価格への移行時期,CLVやMRRターゲットとの価格調整方法,倫理的ガードレールの組み込み方法など,戦略プレイブックとして機能する。
論文 参考訳(メタデータ) (2025-12-24T04:25:31Z) - LLM Rationalis? Measuring Bargaining Capabilities of AI Negotiators [2.1952520391635586]
バイラテラルネゴシエーションは、人間の交渉者がアンカー、ペーシング、柔軟性を動的に調整し、パワー・アシンメトリーと非公式な手段を利用する複雑なコンテキスト依存のタスクである。
双曲的接点曲線に基づく譲歩力学をモデル化するための統一的な数学的枠組みを導入する。
人間の交渉者と4つの最先端の大規模言語モデル(LLM)を、自然言語と数値的な設定で大規模に比較した。
論文 参考訳(メタデータ) (2025-12-15T07:50:09Z) - Constrained deep learning for pricing and hedging european options in incomplete markets [0.0]
不完全な金融市場では、価格とヘッジの欧州オプションは、未解決のリスクのために、ユニークな非緩和ソリューションを欠いている。
本稿では、オプション価格を決定するための制約付きディープラーニング手法を導入し、ゼロあたりの利益と損失の分布を最小限に抑えるヘッジ戦略を提案する。
論文 参考訳(メタデータ) (2025-11-25T20:40:01Z) - Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission [87.68447072141402]
ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。
我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
論文 参考訳(メタデータ) (2025-06-30T02:56:11Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。