論文の概要: Do Math Reasoning LLMs Help Predict the Impact of Public Transit Events?
- arxiv url: http://arxiv.org/abs/2511.00808v1
- Date: Sun, 02 Nov 2025 05:21:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.944737
- Title: Do Math Reasoning LLMs Help Predict the Impact of Public Transit Events?
- Title(参考訳): LLMの数学的推論は公共交通機関への影響を予測するのに役立つか?
- Authors: Bowen Fang, Ruijian Zha, Xuan Di,
- Abstract要約: 単一の正解を要求するのではなく、連続的なエラーマージン内で部分的な信用を付与する寛容に基づく形状の報酬関数を導入する。
この結果から,汎用的な命令調整型LLMは,特殊数学推論モデルよりも優れていたことが示唆された。
このことは、RLVRが実世界のノイズ予測にうまく適応できることを示しているが、問題の継続的な性質を反映した検証設計が必要である。
- 参考スコア(独自算出の注目度): 6.428337528749318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting public transit incident duration from unstructured text alerts is a critical but challenging task. Addressing the domain sparsity of transit operations with standard Supervised Fine-Tuning (SFT) is difficult, as the task involves noisy, continuous labels and lacks reliable expert demonstrations for reasoning. While Reinforcement Learning from Verifiable Rewards (RLVR) excels at tasks with binary correctness, like mathematics, its applicability to noisy, continuous forecasting is an open question. This work, to our knowledge, is the first to bridge the gap between RLVR LLM training with the critical, real-world forecasting challenges in public transit operations. We adapt RLVR to this task by introducing a tolerance-based, shaped reward function that grants partial credit within a continuous error margin, rather than demanding a single correct answer. We systematically evaluate this framework on a curated dataset of NYC MTA service alerts. Our findings show that general-purpose, instruction-tuned LLMs significantly outperform specialized math-reasoning models, which struggle with the ambiguous, real-world text. We empirically demonstrate that the binary reward is unstable and degrades performance, whereas our shaped reward design is critical and allows our model to dominate on the most challenging metrics. While classical regressors are superior at minimizing overall MAE or MSE, our RLVR approach achieved a 35\% relative improvement in 5-minute accuracy (Acc@5) over the strongest baseline. This demonstrates that RLVR can be successfully adapted to real-world, noisy forecasting, but requires a verifier design that reflects the continuous nature of the problem.
- Abstract(参考訳): 非構造化テキストアラートによる公共交通機関のインシデント期間の予測は、重要な作業だが難しい作業だ。
標準のSupervised Fine-Tuning (SFT) によるトランジット操作の領域幅に対処することは困難である。
Reinforcement Learning from Verifiable Rewards (RLVR)は数学のような二項正当性のあるタスクを抽出するが、ノイズ、連続予測の適用性はオープンな問題である。
この研究は、私たちの知る限り、RLVR LLMトレーニングと公共交通機関の業務におけるクリティカルで現実的な予測課題とのギャップを埋める最初のものです。
我々は、1つの正しい答えを要求するのではなく、連続的なエラーマージン内で部分的な信用を付与する寛容に基づく形状の報酬関数を導入することで、RLVRをこのタスクに適用する。
我々は、このフレームワークをニューヨーク市MTAサービスアラートのキュレートされたデータセットで体系的に評価する。
この結果から,LLMは,不明瞭な実世界のテキストに苦しむ特殊な数学推論モデルよりも有意に優れていた。
私たちは、バイナリ報酬が不安定でパフォーマンスが低下していることを実証的に実証していますが、私たちの形をした報酬設計は重要であり、我々のモデルは最も困難なメトリクスを支配します。
従来の回帰器はMAEやMSEの最小化に優れていたが,RLVR法では5分間の精度(Acc@5)が最強のベースラインよりも35%向上した。
このことは、RLVRが実世界のノイズ予測にうまく適応できることを示しているが、問題の継続的な性質を反映した検証設計が必要である。
関連論文リスト
- Auditable-choice reframing unlocks RL-based verification for open-ended tasks [23.12421867559344]
Verible Multiple-Choice Reformulation (VMR)は、オープンエンドデータを検証可能な複数選択形式に再構成する新しいトレーニング戦略である。
8つのオープンエンドベンチマークで、VMRベースのトレーニングはベースラインで平均5.99ポイント向上します。
論文 参考訳(メタデータ) (2025-11-04T10:45:52Z) - Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries [23.825984868116716]
多段階空間推論のための合成迷路を利用したフレームワークであるAriadneを紹介する。
我々は、この制御可能な環境を利用して、難易度を意識したカリキュラムにおいて、Reinforcement Learning with Verified Rewards(RLVR)を用いて視覚言語モデル(VLM)を訓練する。
驚くべきことに、VLMはRLVR後のトレーニングにおいて、ベースモデルが0%となる問題セットに対して50%以上の精度を達成する。
論文 参考訳(メタデータ) (2025-11-01T21:19:41Z) - Beyond Reasoning Gains: Mitigating General Capabilities Forgetting in Large Reasoning Models [33.214586668992965]
検証可能な報酬(RLVR)による強化学習は、数学的およびマルチモーダル推論において驚くべき成果を上げている。
汎用知識のための動的客観的リウェイトを用いたRECAP-aリプレイ戦略を提案する。
本手法はエンド・ツー・エンドであり,既存のRLVRパイプラインに適用可能である。
論文 参考訳(メタデータ) (2025-10-24T19:08:48Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Beyond Uncertainty: Evidential Deep Learning for Robust Video Temporal Grounding [49.973156959947346]
既存のビデオ時間グラウンド(VTG)モデルは精度は優れているが、オープン語彙クエリや未トリミングビデオによって引き起こされるオープンワールドの課題を見落としていることが多い。
2段階のクロスモーダルアライメントタスクの恩恵を受ける頑健なネットワークモジュールを導入する。
Deep Evidential Regression (DER)を統合して、トレーニング中の不確実性を明確かつ徹底的に定量化する。
これに対し,我々は,不確実性学習フレームワークをゼロから強化する簡易かつ効果的なGeom-regularizerを開発した。
論文 参考訳(メタデータ) (2024-08-29T05:32:03Z) - Revisiting the Robustness of the Minimum Error Entropy Criterion: A
Transfer Learning Case Study [16.07380451502911]
本稿では,非ガウス雑音に対処する最小誤差エントロピー基準のロバスト性を再考する。
本稿では,分散シフトが一般的である実生活伝達学習回帰タスクの実現可能性と有用性について検討する。
論文 参考訳(メタデータ) (2023-07-17T15:38:11Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [54.34189781923818]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。