論文の概要: AgenticSimLaw: A Juvenile Courtroom Multi-Agent Debate Simulation for Explainable High-Stakes Tabular Decision Making
- arxiv url: http://arxiv.org/abs/2601.21936v1
- Date: Thu, 29 Jan 2026 16:26:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.986212
- Title: AgenticSimLaw: A Juvenile Courtroom Multi-Agent Debate Simulation for Explainable High-Stakes Tabular Decision Making
- Title(参考訳): AgenticSimLaw: 説明可能な高音節決定のための若年者法廷マルチエージェント議論シミュレーション
- Authors: Jon Chun, Kathrine Elkins, Yong Suk Lee,
- Abstract要約: 我々はAgenticSimLawを紹介した。これは、透明で制御可能なテストタイム推論を提供するロール構造化マルチエージェントの議論フレームワークである。
ブラックボックスアプローチとは異なり、裁判所スタイルのオーケストレーションでは、エージェントの役割を明確に定義しています。
NLSY97データセットを用いて、この枠組みを若者の復習予測にベンチマークする。
- 参考スコア(独自算出の注目度): 0.6218206949753592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce AgenticSimLaw, a role-structured, multi-agent debate framework that provides transparent and controllable test-time reasoning for high-stakes tabular decision-making tasks. Unlike black-box approaches, our courtroom-style orchestration explicitly defines agent roles (prosecutor, defense, judge), interaction protocols (7-turn structured debate), and private reasoning strategies, creating a fully auditable decision-making process. We benchmark this framework on young adult recidivism prediction using the NLSY97 dataset, comparing it against traditional chain-of-thought (CoT) prompting across almost 90 unique combinations of models and strategies. Our results demonstrate that structured multi-agent debate provides more stable and generalizable performance compared to single-agent reasoning, with stronger correlation between accuracy and F1-score metrics. Beyond performance improvements, AgenticSimLaw offers fine-grained control over reasoning steps, generates complete interaction transcripts for explainability, and enables systematic profiling of agent behaviors. While we instantiate this framework in the criminal justice domain to stress-test reasoning under ethical complexity, the approach generalizes to any deliberative, high-stakes decision task requiring transparency and human oversight. This work addresses key LLM-based multi-agent system challenges: organization through structured roles, observability through logged interactions, and responsibility through explicit non-deployment constraints for sensitive domains. Data, results, and code will be available on github.com under the MIT license.
- Abstract(参考訳): 我々はAgenticSimLawを紹介した。AgenticSimLawはロール構造化、マルチエージェントの議論フレームワークで、高精細な表型意思決定タスクに対して透過的で制御可能なテスト時間推論を提供する。
ブラックボックスのアプローチとは異なり、裁判所スタイルのオーケストレーションでは、エージェントの役割(検察、弁護、裁判官)、インタラクションプロトコル(7ターン構造化された議論)、およびプライベートな推論戦略を明確に定義し、完全に監査可能な意思決定プロセスを作成します。
NLSY97データセットを用いて、このフレームワークを若年層再帰予測にベンチマークし、従来のチェーン・オブ・シント(CoT)と比較し、およそ90種類のモデルと戦略の組み合わせを推し進める。
以上の結果から,構造化マルチエージェントの議論は単一エージェントの推論よりも安定かつ一般化可能な性能を示し,精度とF1スコアの相関が強くなった。
パフォーマンスの改善に加えて、AgenticSimLawは推論ステップのきめ細かい制御、説明可能性のための完全なインタラクショントランスクリプトの生成、エージェントの振る舞いの体系的なプロファイリングを可能にする。
刑事司法領域におけるこの枠組みを、倫理的複雑さの下でのストレステスト推論にインスタンス化する一方で、そのアプローチは、透明性と人間の監督を必要とする、熟考された高い意思決定タスクに一般化する。
この研究は、構造化された役割による組織化、ログ化された相互作用による可観測性、機密ドメインに対する明示的な非デプロイ制約による責任といった、LLMベースのマルチエージェントシステムの課題に対処する。
データ、結果、コードはMITライセンス下でgithub.comで入手できる。
関連論文リスト
- Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Interact-RAG: Reason and Interact with the Corpus, Beyond Black-Box Retrieval [49.85856484781787]
本稿では,ILMエージェントを検索プロセスのアクティブマニピュレータに高める新しいパラダイムであるInteract-RAGを紹介する。
我々は、ゼロショット実行と相互作用軌跡の合成を可能にする推論強化ワークフローを開発する。
6つのベンチマーク実験により、Interact-RAGは他の高度な手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-10-31T15:48:43Z) - Unleashing Diverse Thinking Modes in LLMs through Multi-Agent Collaboration [5.19759149737193]
本稿では,複数思考モード(DiMo)のための多エージェント協調フレームワークを提案する。
4つの特殊言語モデル(LLM)間の構造化された議論をシミュレートすることで、性能と解釈可能性の両方を向上させる。
6つのベンチマークと統一されたオープンソース設定の下では、DiMoは広く使用されているシングルモデルと議論ベースラインよりも精度を向上し、数学で最大の利益を上げている。
論文 参考訳(メタデータ) (2025-10-18T21:22:36Z) - Benefits and Limitations of Communication in Multi-Agent Reasoning [11.788489289062312]
マルチエージェントシステムの表現性を解析するための理論的枠組みを提案する。
i) タスクを正確に解くために必要なエージェントの数, (ii) エージェント間通信の量と構造, (iii) 達成可能なスピードアップを問題サイズとコンテキストスケールとして導出する。
本研究は,コミュニケーションが有益である状況を特定し,エージェント数と帯域幅のトレードオフを明確化し,いずれのリソースにも制約がある場合の本質的な制約を明らかにする。
論文 参考訳(メタデータ) (2025-10-14T20:04:27Z) - Reasoning-Aware Prompt Orchestration: A Foundation Model for Multi-Agent Language Model Coordination [0.0]
複数の特殊エージェント間の推論を強化する動的プロンプトオーケストレーションのための理論的基盤となるフレームワークを提案する。
このフレームワークは,エージェント移行時の論理的一貫性の維持,推論対応の迅速な適応,分散推論のスケーラブルな調整,という3つの課題に対処する。
1000件の合成マルチエージェント会話実験の結果,推論遅延の42%低減,ROUGE-Lスコアによる論理的整合性の23%改善,文脈損失のないタスク完了の89%の成功率が確認された。
論文 参考訳(メタデータ) (2025-09-30T22:33:01Z) - AgentCDM: Enhancing Multi-Agent Collaborative Decision-Making via ACH-Inspired Structured Reasoning [8.566904810788213]
AgentCDMはマルチエージェントシステムにおける協調的意思決定を強化するための構造化フレームワークである。
認知バイアスを内部化し、意思決定を受動的回答の選択からアクティブな仮説評価と構築へとシフトさせる。
複数のベンチマークデータセットの実験は、AgentCDMが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-08-16T09:46:04Z) - DICE: Dynamic In-Context Example Selection in LLM Agents via Efficient Knowledge Transfer [50.64531021352504]
インコンテキスト学習(ICL)によって強化された大規模言語モデルベースエージェントは、複雑な推論やツール使用タスクにおいて強力な能力を示している。
既存のアプローチは典型的には、エージェントやマルチステップの設定を含むサンプルの選択に依存している。
推論の各ステップにおいて最も関連性の高い実演を選択できるエージェントタスクのための理論的に基礎付けられた ICL フレームワーク DICE を提案する。
論文 参考訳(メタデータ) (2025-07-31T13:42:14Z) - Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。