論文の概要: MARBLE: A Multi-Agent Rule-Based LLM Reasoning Engine for Accident Severity Prediction
- arxiv url: http://arxiv.org/abs/2507.04893v1
- Date: Mon, 07 Jul 2025 11:27:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.400045
- Title: MARBLE: A Multi-Agent Rule-Based LLM Reasoning Engine for Accident Severity Prediction
- Title(参考訳): MARBLE:事故重大度予測のためのマルチエージェントルールベースLLM推論エンジン
- Authors: Kaleem Ullah Qasim, Jiashu Zhang,
- Abstract要約: 交通安全システムにおいて,事故重大度予測が重要な役割を担っている。
既存の方法はしばしばモノリシックモデルやブラックボックスプロンプトに依存している。
本稿では,多エージェントルールに基づくLLMエンジンを提案し,その重大性予測タスクを,専門的推論エージェントのチーム間で分解する。
- 参考スコア(独自算出の注目度): 1.3102025155414727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accident severity prediction plays a critical role in transportation safety systems but is a persistently difficult task due to incomplete data, strong feature dependencies, and severe class imbalance in which rare but high-severity cases are underrepresented and hard to detect. Existing methods often rely on monolithic models or black box prompting, which struggle to scale in noisy, real-world settings and offer limited interpretability. To address these challenges, we propose MARBLE a multiagent rule based LLM engine that decomposes the severity prediction task across a team of specialized reasoning agents, including an interchangeable ML-backed agent. Each agent focuses on a semantic subset of features (e.g., spatial, environmental, temporal), enabling scoped reasoning and modular prompting without the risk of prompt saturation. Predictions are coordinated through either rule-based or LLM-guided consensus mechanisms that account for class rarity and confidence dynamics. The system retains structured traces of agent-level reasoning and coordination outcomes, supporting in-depth interpretability and post-hoc performance diagnostics. Across both UK and US datasets, MARBLE consistently outperforms traditional machine learning classifiers and state-of-the-art (SOTA) prompt-based reasoning methods including Chain-of-Thought (CoT), Least-to-Most (L2M), and Tree-of-Thought (ToT) achieving nearly 90% accuracy where others plateau below 48%. This performance redefines the practical ceiling for accident severity classification under real world noise and extreme class imbalance. Our results position MARBLE as a generalizable and interpretable framework for reasoning under uncertainty in safety-critical applications.
- Abstract(参考訳): 事故重大度予測は交通安全システムにおいて重要な役割を担っているが、不完全なデータ、強い特徴依存性、希少だが高重度なケースが過小評価され、検出が困難である重大クラス不均衡により、持続的に困難な課題である。
既存の手法はしばしばモノリシックなモデルやブラックボックスプロンプトに依存しており、ノイズの多い実世界の環境でのスケーリングに苦労し、限定的な解釈性を提供する。
これらの課題に対処するため、MARBLEはML支援エージェントを含む特殊推論エージェントのチーム間で重大性予測タスクを分解するマルチエージェントルールベースのLLMエンジンを提案する。
各エージェントは特徴のセマンティックサブセット(例えば、空間、環境、時間)に焦点を当て、即時飽和のリスクを伴わずに、スコープ付き推論とモジュラープロンプトを可能にする。
予測はルールベースまたはLDM誘導のコンセンサス機構によって調整される。
このシステムはエージェントレベルの推論と調整結果の構造的トレースを保持し、深い解釈性とポストホック性能診断をサポートする。
英国と米国の両方のデータセットにおいて、MARBLEは従来型の機械学習分類器と、Chain-of-Thought(CoT)、Least-to-Most(L2M)、Tree-of-Thought(ToT)など、SOTA(State-of-the-art)プロンプトベースの推論手法を一貫して上回り、他が48%未満の精度を達成している。
この性能は、現実の騒音と極端な階級不均衡の下での事故重大度分類の実践的天井を再定義する。
本研究は,MARBLEを安全クリティカルなアプリケーションにおける不確実性を考慮した推論のための一般化可能かつ解釈可能なフレームワークとして位置づけた。
関連論文リスト
- NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - Towards Robust LLMs: an Adversarial Robustness Measurement Framework [0.0]
大規模言語モデル(LLM)は敵の摂動に弱いままであり、高い精度のアプリケーションでは信頼性を損なう。
我々はロバストネス測定および評価フレームワークを適用し、モデルパラメータへのアクセスを必要とせず、逆入力に対するLLMレジリエンスの定量化を行う。
我々の研究は、LLMの堅牢性を評価するための体系的な方法論を提供し、実世界展開のためのより信頼性の高い言語モデルの開発を進めています。
論文 参考訳(メタデータ) (2025-04-24T16:36:19Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、機械翻訳、要約、会話エージェントの進歩を推進している。
近年の研究では、LSMは偏りのある反応を誘発するために設計された敵攻撃に弱いままである。
本研究は,LLMの逆バイアス誘発に対する堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - Breaking the Curse of Multiagency in Robust Multi-Agent Reinforcement Learning [37.80275600302316]
分布的にロバストなマルコフゲーム (RMG) は、MARLのロバスト性を高めるために提案されている。
悪名高いオープンな2つの課題は、不確実性の集合の定式化と、対応するRMGがマルチ緊急の呪いを克服できるかどうかである。
本研究では,行動経済学に着想を得た自然なRMGのクラスを提案し,各エージェントの不確実性セットは,環境と他のエージェントの統合行動の両方によって形成される。
論文 参考訳(メタデータ) (2024-09-30T08:09:41Z) - Quantifying Prediction Consistency Under Fine-Tuning Multiplicity in Tabular LLMs [10.494477811252034]
微調整多重度は分類タスクにおけるタブラル LLM に現れる。
我々の研究は、タブラルLLMにおける微調整多重性というこのユニークな挑戦を定式化する。
本稿では,コストのかかるモデル再訓練を伴わずに,個々の予測の一貫性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:22:09Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率のよいアンサンブル手法であるLoRA-Ensembleを紹介する。
この方法は、BatchEnsembleのような最先端の暗黙のテクニックを上回るだけでなく、Explicit Ensembleの正確さにマッチするか超える。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。