論文の概要: Enforcing Monotonic Progress in Legal Cross-Examination: Preventing Long-Horizon Stagnation in LLM-Based Inquiry
- arxiv url: http://arxiv.org/abs/2602.04206v1
- Date: Wed, 04 Feb 2026 04:44:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.371914
- Title: Enforcing Monotonic Progress in Legal Cross-Examination: Preventing Long-Horizon Stagnation in LLM-Based Inquiry
- Title(参考訳): 法律横断試験におけるモノトニック進展の促進--LLM調査における長期安定化の防止-
- Authors: Hsien-Jyh Liao,
- Abstract要約: 大規模言語モデル (LLM) は印象的な言語流布を示すが、明示的な手続き的制約の下で長期タスクを確実に完了させることに苦慮している。
我々は、外部決定論的状態制御器を介して蓄積されたキー情報ユニット(KIU)のモノトニック進行を強制する、ニューロシンボリックアーキテクチャであるSoft-FSMを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) exhibit impressive linguistic fluency but struggle to reliably complete long-horizon tasks under explicit procedural constraints. In legal cross-examination, purely proba-bilistic generation often maintains behavioral coherence while failing to ensure procedural advancement. We characterize this failure as procedural stagnation and propose Soft-FSM, a neuro-symbolic architecture that enforces monotonic progress over accumulated Key Information Units (KIUs) via an external deterministic state controller. Experiments on three real-world Taiwanese criminal homicide cases show that baseline methods collapse below 40% completeness, while Soft-FSM consistently achieves over 97% with near-zero redundancy. These results suggest that, in such domains, reliable task completion cannot be guaranteed by emergent LLM behavior alone, and can be reliably enforced through explicit and verifiable external state control.
- Abstract(参考訳): 大規模言語モデル (LLM) は印象的な言語流布を示すが、明示的な手続き的制約の下で長期タスクを確実に完了させることに苦慮している。
法的な相互審査において、純粋に確率的生成は、手続き的進歩を確実にするのに失敗しながら、行動的一貫性を維持する。
我々は,この失敗を手続き的停滞として特徴付け,外部決定性状態制御器を介して蓄積されたキー情報ユニット(KIU)上で単調な進行を強制する神経シンボルアーキテクチャであるSoft-FSMを提案する。
実際の台湾の3件の実験では、ベースライン法は40%の完全性以下で崩壊し、Soft-FSMはほぼゼロの冗長性で97%以上を達成している。
これらの結果は、そのような領域において、信頼されたタスク完了は、緊急LLM動作だけでは保証できず、明示的で検証可能な外部状態制御によって確実に実施可能であることを示唆している。
関連論文リスト
- Making LLMs Reliable When It Matters Most: A Five-Layer Architecture for High-Stakes Decisions [51.56484100374058]
現在の大規模言語モデル(LLM)は、実行前にアウトプットをチェックできるが、不確実な結果を伴う高い戦略決定には信頼性が低い検証可能な領域で優れている。
このギャップは、人間と人工知能(AI)システムの相互認知バイアスによって引き起こされ、そのセクターにおける評価と投資の持続可能性の保証を脅かす。
本報告では、7つのフロンティアグレードLDMと3つの市場向けベンチャーヴィグネットの時間的圧力下での系統的質的評価から生まれた枠組みについて述べる。
論文 参考訳(メタデータ) (2025-11-10T22:24:21Z) - The Illusion of Procedural Reasoning: Measuring Long-Horizon FSM Execution in LLMs [10.228723521208858]
大規模言語モデル (LLM) は推論問題としてのタスクにおいて顕著な結果を得た。
手続き的推論を実行し、多段階のルールベースの計算を実行する真の能力は、まだ不明である。
LLMの手続き的推論能力を評価するためのフレームワークとして有限状態機械実行を導入する。
論文 参考訳(メタデータ) (2025-11-05T18:44:47Z) - RvLLM: LLM Runtime Verification with Domain Knowledge [8.15645390408007]
大規模言語モデル(LLM)は、例外的なテキスト理解と生成能力のため、AIパラダイムの主流として現れている。
不整合または誤ったアウトプットを生成する傾向は、特に正確さと信頼性を必要とする高い領域において、その信頼性に挑戦する。
既存の研究は、多くの場合、ドメイン固有の知識を統合する可能性を見越して、汎用シナリオにおけるモデル誤動作の検出と緩和に重点を置いている。
論文 参考訳(メタデータ) (2025-05-24T08:21:44Z) - Exposing the Ghost in the Transformer: Abnormal Detection for Large Language Models via Hidden State Forensics [5.384257830522198]
重要なアプリケーションにおける大規模言語モデル(LLM)は、重大な信頼性とセキュリティリスクを導入している。
これらの脆弱性は悪意あるアクターによって武器化され、不正アクセス、広範囲にわたる誤報、システムの完全性を侵害した。
本研究では,LLMの異常な挙動を隠蔽法で検出する手法を提案する。
論文 参考訳(メタデータ) (2025-04-01T05:58:14Z) - SagaLLM: Context Management, Validation, and Transaction Guarantees for Multi-Agent LLM Planning [2.1331883629523634]
SagaLLMは、現在のLLMベースの計画システムの4つの基本的な制限に対処するために設計された構造化マルチエージェントアーキテクチャである。
Sagaトランザクションパターンを永続メモリ、自動補償、独立バリデーションエージェントに統合することで、このギャップを埋める。
不確実性の下では、一貫性、検証精度、適応調整において大幅な改善が達成される。
論文 参考訳(メタデータ) (2025-03-15T01:43:03Z) - Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。