論文の概要: Teaching LLMs to Ask: Self-Querying Category-Theoretic Planning for Under-Specified Reasoning
- arxiv url: http://arxiv.org/abs/2601.20014v1
- Date: Tue, 27 Jan 2026 19:41:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.63769
- Title: Teaching LLMs to Ask: Self-Querying Category-Theoretic Planning for Under-Specified Reasoning
- Title(参考訳): LLMs to Ask: Self-Querying Category-Theoretic Planning for Under-Specified Reasoning
- Authors: Shuhui Qu,
- Abstract要約: 大きな言語モデルによる推論時間プランニングは、部分的な可観測性の下で頻繁に失敗する。
textbfSelf-Querying Bidirectional Categorical Planning (SQ-BCP)を導入する。
検証が成功し、厳しい制約が決定論的チェックをパスした場合、承認された計画が目標要件と互換性があることを証明する。
- 参考スコア(独自算出の注目度): 1.8055130471307603
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Inference-time planning with large language models frequently breaks under partial observability: when task-critical preconditions are not specified at query time, models tend to hallucinate missing facts or produce plans that violate hard constraints. We introduce \textbf{Self-Querying Bidirectional Categorical Planning (SQ-BCP)}, which explicitly represents precondition status (\texttt{Sat}/\texttt{Viol}/\texttt{Unk}) and resolves unknowns via (i) targeted self-queries to an oracle/user or (ii) \emph{bridging} hypotheses that establish the missing condition through an additional action. SQ-BCP performs bidirectional search and invokes a pullback-based verifier as a categorical certificate of goal compatibility, while using distance-based scores only for ranking and pruning. We prove that when the verifier succeeds and hard constraints pass deterministic checks, accepted plans are compatible with goal requirements; under bounded branching and finite resolution depth, SQ-BCP finds an accepting plan when one exists. Across WikiHow and RecipeNLG tasks with withheld preconditions, SQ-BCP reduces resource-violation rates to \textbf{14.9\%} and \textbf{5.8\%} (vs.\ \textbf{26.0\%} and \textbf{15.7\%} for the best baseline), while maintaining competitive reference quality.
- Abstract(参考訳): タスククリティカルな前提条件がクエリ時に指定されない場合、モデルは欠落した事実を幻覚させるか、厳しい制約に違反した計画を生成する傾向があります。
これは条件条件(\texttt{Sat}/\texttt{Viol}/\texttt{Unk})を明示的に表現し、未知を解決します。
(i)神託・使用者を対象にした自問自答
(ii) 追加の作用によって不足状態を確立する仮説。
SQ-BCPは双方向検索を行い、ゴール互換性のカテゴリ証明書としてプルバックベースの検証を呼び出し、ランキングとプルーニングにのみ距離ベースのスコアを使用する。
検証が成功し、厳密な制約が決定論的チェックをパスした場合、受理計画が目標要件と互換性があることを証明し、有界分岐と有限分解深度の下で、SQ-BCP は受理計画が存在するとき、受理計画を見つける。
WikiHow と RecipeNLG のタスクを無条件で行うことで、SQ-BCP はリソース違反率を \textbf{14.9\%} と \textbf{5.8\%} (vs) に下げる。
ベストベースラインは \textbf{26.0\%} と \textbf{15.7\%} である。
関連論文リスト
- Fuzzy Categorical Planning: Autonomous Goal Satisfaction with Graded Semantic Constraints [1.8055130471307603]
ファジィカテゴリー理論計画(FCP)
FCP は t-norm Lukasiewicz を通じて計画品質を構成し、プルバック検証を通じて実行可能性チェックを保持する。
我々は, (i) パブリックPDDL3選好/オーバーサブスクライブベンチマークと (ii) 代替レシピプランニングベンチマークのRecipeNLG-Subsについて検討した。
論文 参考訳(メタデータ) (2026-01-27T19:56:00Z) - KBQA-R1: Reinforcing Large Language Models for Knowledge Base Question Answering [64.62317305868264]
テキスト模倣から強化学習によるインタラクション最適化へパラダイムをシフトするフレームワークである textbfKBQA-R1 を提案する。
KBQAを多ターン決定プロセスとして扱うことで,行動のリストを用いて知識ベースをナビゲートすることを学ぶ。
WebQSP、GrailQA、GraphQuestionsの実験では、KBQA-R1が最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-10T17:45:42Z) - Evaluating List Construction and Temporal Understanding capabilities of Large Language Models [54.39278049092508]
大規模言語モデル(LLM)は、特に時間的理解タスクにおける幻覚や誤りの影響を受けやすい。
本稿では,時系列に適合するリスト形式で構造化された回答を必要とするTLQA(Time Referenceed List based Question Answering)ベンチマークを提案する。
閉書およびオープンドメイン設定におけるTLQA上の最先端生成モデルの時間的理解とリスト構築能力について検討する。
論文 参考訳(メタデータ) (2025-06-26T21:40:58Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Conformal Prediction Beyond the Seen: A Missing Mass Perspective for Uncertainty Quantification in Generative Models [20.810300785340072]
Conformal Prediction with Query Oracle (CPQ)は、これらの目的間の最適な相互作用を特徴付けるフレームワークである。
本アルゴリズムは2つの基本原理に基づいて構築されている。一方は最適なクエリポリシーを規定し、他方はクエリされたサンプルから予測セットへの最適マッピングを定義する。
論文 参考訳(メタデータ) (2025-06-05T18:26:14Z) - Belief-State Query Policies for User-Aligned POMDPs [18.821166966365315]
本稿では,エージェントの動作に対するユーザの制約や嗜好を部分的に観察可能な環境で表現するための新しい枠組みを提案する。
このような制約を初めて公式に解析し、パラメータ化されたBSQポリシーの期待されるコスト関数w.r.tはそのパラメータが凸ではないことを証明した。
この理論的な結果から, gPOMDPエージェントの動作を保証されたユーザアライメントで最適化するアルゴリズムが誕生した。
論文 参考訳(メタデータ) (2024-05-24T20:04:51Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z) - Conditional Self-Attention for Query-based Summarization [49.616774159367516]
条件依存モデリング用に設計されたニューラルネットワークモジュールであるテキスト条件自己アテンション(CSA)を提案する。
DebatepediaとHotpotQAベンチマークデータセットの実験は、CSAがバニラトランスフォーマーを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2020-02-18T02:22:31Z) - The Limits of Efficiency for Open- and Closed-World Query Evaluation
Under Guarded TGDs [10.042878093985458]
制約が存在する場合のオントロジーによるクエリとクエリは2つの重要なデータベース問題である。
保護されたTGDとUCQのコンテキストにおける効率的なクエリ評価の限界を実際のクエリとして検討する。
論文 参考訳(メタデータ) (2019-12-28T11:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。