論文の概要: DAR: Deontic Reasoning with Agentic Harnesses
- arxiv url: http://arxiv.org/abs/2606.05009v1
- Date: Wed, 03 Jun 2026 15:29:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.858787
- Title: DAR: Deontic Reasoning with Agentic Harnesses
- Title(参考訳): DAR: Deontic Reasoning with Agentic Harnesss
- Authors: Guangyao Dou, William Jurayj, Nils Holzenberger, Benjamin Van Durme,
- Abstract要約: 本稿では,DAR(Deontic Agentic Reasoning)について紹介する。
我々はDARをDeonticBenchのハードサブセット上で複数のハーネスで評価する。
- 参考スコア(独自算出の注目度): 48.798309189058614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deontic reasoning is the task of answering questions by applying explicit rules and policies to case-specific facts, for example computing tax liability under a statute or determining the outcome of an immigration appeal. A key technical challenge for LLM-based deontic reasoning is that the relevant ruleset can be long and cross-referenced, so models may still fail to locate the rules needed for a particular reasoning step. We introduce Deontic Agentic Reasoning (DAR), an agentic reasoning setup in which the model interacts with the statutes on demand. We evaluate DAR under multiple harnesses on hard subsets of DeonticBench. Across these settings, we find that agentic harnesses can push the frontier on deontic reasoning tasks, but improvements are not uniform: weaker models often degrade on numerical tasks while consuming far more tokens.
- Abstract(参考訳): デオン推論(Deontic reasoning)とは、例えば法の下で税の負担を計算したり、移民の訴えの結果を決定するなど、ケース固有の事実に明確な規則とポリシーを適用することで質問に答えるタスクである。
LLMベースのデオン推論の重要な技術的課題は、関連するルールセットが長く、相互参照可能であるため、モデルが特定の推論ステップに必要なルールを見つけるのに失敗する可能性があることである。
本稿では,DAR(Deontic Agentic Reasoning)について紹介する。
我々はDARをDeonticBenchのハードサブセット上で複数のハーネスで評価する。
これらの設定全体にわたって、エージェントハーネスはデオン推論タスクにフロンティアを押し上げることができるが、改善は均一ではない。
関連論文リスト
- DeonticBench: A Benchmark for Reasoning over Rules [52.69517904415795]
DEONTICBENCHは、アメリカ合衆国連邦政府の税、航空会社の荷物政策、移民管理、および合衆国の住宅法に関する6,232のタスクのベンチマークである。
これは、実世界のドメインにおいて、象徴的および非象徴的な設定の下でコンテキスト基底ルール推論を研究するためのベンチマークである。
論文 参考訳(メタデータ) (2026-04-06T05:41:02Z) - Towards Generalizable Reasoning: Group Causal Counterfactual Policy Optimization for LLM Reasoning [50.352417879912515]
大規模言語モデル(LLM)は推論能力の進歩とともに複雑なタスクに優れる。
一般化可能な推論パターンを学習するために,LLMを明示的に訓練するためのグループ因果政策最適化を提案する。
次に、この報酬からトークンレベルのアドバンテージを構築し、ポリシーを最適化し、LCMにプロセス無効で事実上堅牢な推論パターンを推奨します。
論文 参考訳(メタデータ) (2026-02-06T08:03:11Z) - Thinking Longer, Not Always Smarter: Evaluating LLM Capabilities in Hierarchical Legal Reasoning [11.255428720705204]
本稿では,ケース間の重要な区別を3段階の推論タスクに分解する枠組みを提案する。
我々のフレームワークは、要因と呼ばれる事実的述語を使用してケースをモデル化し、それらを法的知識階層に整理し、区別を識別するための検証可能なルールを定義します。
我々は、モデルが正しい応答よりも間違った応答について、常に多くの計算資源を消費していることを発見し、「より長く考えることは、必ずしも「より賢く考える」という意味ではないことを示唆している。
論文 参考訳(メタデータ) (2025-10-09T18:15:28Z) - GSM-Agent: Understanding Agentic Reasoning Using Controllable Environments [56.007498767771075]
GSM-Agentは複雑な環境でエージェント推論を評価するための新しいベンチマークである。
我々は,環境文書の埋め込みをノードにクラスタ化することでエージェント推論パターンを分析し,各ツールコールを最も近いノードにマッピングする。
本稿では,LLMのエージェント推論性能を向上させるためのツール拡張テストタイムスケーリング手法を提案する。
論文 参考訳(メタデータ) (2025-09-26T07:24:37Z) - Judicial Requirements for Generative AI in Legal Reasoning [0.0]
大規模言語モデル(LLM)はプロのドメインに統合されているが、法律のような高度な分野における制限は理解されていない。
本稿では、AIシステムが司法判断における信頼性の高い推論ツールとして機能しなければならない中核機能について述べる。
論文 参考訳(メタデータ) (2025-08-26T09:56:26Z) - Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。