論文の概要: Bridging Auxiliary Constraints to Resolve Instruction Following in Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2606.03624v1
- Date: Tue, 02 Jun 2026 13:23:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:05.023021
- Title: Bridging Auxiliary Constraints to Resolve Instruction Following in Large Reasoning Models
- Title(参考訳): 大規模共振モデルによる補助的制約による指導の解消
- Authors: Zhengyi Zhao, Shubo Zhang, Huimin Wang, Zezhong Wang, Yutian Zhao, Yefeng Zheng, Binyang Li, Yulan He, Kam-Fai Wong, Xian Wu,
- Abstract要約: 大規模推論モデル(LRM)は多くのタスクにおいて印象的な能力を示してきたが、彼らは確実に複数の命令に従うことに苦労している。
我々はこの課題を制約整合問題(CAP)として定式化する。
本稿では,制約の構造化知識グラフとして命令を表現してCAPに対処する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 52.87406450655783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) have demonstrated impressive capabilities in many tasks, yet they struggle with reliably following multiple instructions, either by failing to satisfy individual constraints or by struggling to balance competing constraints simultaneously. We formalize this challenge as the Constraint Adherence Problem (CAP). This paper introduces a novel framework that addresses CAP by representing instructions as a structured knowledge graph of constraints. Our approach, Constraint Relationship Graph Completion (CRGC), explicitly models relationships between constraints, identifies adherence challenges, and discovers ``bridge constraints'' that help the model better focus on and reconcile requirements. Bridge constraints act as auxiliary instructions that make primary constraints more salient and compatible. Unlike existing approaches that enhance instruction following through general training methods, CRGC specifically improves constraint satisfaction by leveraging the model's own knowledge to create better pathways for generation. Experiments across three popular instruction following datasets demonstrate that our approach reduces constraint violations by 39% compared to standard prompting while maintaining reasoning abilities of large reasoning models.
- Abstract(参考訳): 大きな推論モデル(LRM)は多くのタスクにおいて印象的な能力を示してきたが、個々の制約を満たさないか、競合する制約を同時にバランスさせるのに苦労している。
本稿では,この課題を制約整合問題 (CAP) として定式化する。
本稿では,制約の構造化知識グラフとして命令を表現してCAPに対処する新しいフレームワークを提案する。
我々のアプローチであるCRGC(Constraint Relation Graph Completion)は、制約間の関係を明示的にモデル化し、従順性の問題を特定し、モデルが要求により焦点を絞って整合させるのに役立つ '橋の制約'' を発見する。
ブリッジ制約は、プライマリ制約をより健全で互換性のあるものにするための補助命令として機能する。
一般的な訓練方法による指導を強化する既存のアプローチとは異なり、CRGCはモデル自身の知識を活用して制約満足度を改善し、生成のためのより良い経路を作成する。
提案手法は,大規模な推論モデルの推論能力を維持しつつ,標準的プロンプトよりも制約違反を39%低減することを示す。
関連論文リスト
- On the Paradoxical Interference between Instruction-Following and Task Solving [50.75960598434753]
次の命令は、大規模言語モデル(LLM)を、タスクの実行方法に関する明示的な制約を指定することで、人間の意図と整合させることを目的としている。
我々は,LLMのタスク解決能力にパラドックス的に干渉する命令に従うという,直感に反する現象を明らかにした。
本稿では,タスク解決に追従する命令の干渉を定量化する指標として,SUSTAINSCOREを提案する。
論文 参考訳(メタデータ) (2026-01-29T17:48:56Z) - KBQA-R1: Reinforcing Large Language Models for Knowledge Base Question Answering [64.62317305868264]
テキスト模倣から強化学習によるインタラクション最適化へパラダイムをシフトするフレームワークである textbfKBQA-R1 を提案する。
KBQAを多ターン決定プロセスとして扱うことで,行動のリストを用いて知識ベースをナビゲートすることを学ぶ。
WebQSP、GrailQA、GraphQuestionsの実験では、KBQA-R1が最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-10T17:45:42Z) - Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning [52.03884701766989]
オフライン強化学習(RL)アルゴリズムは、通常、アクション選択に制約を課す。
本稿では,Bellmanターゲットにおける行動選択を,データセットアクションの近傍の結合に制限する新しい地区制約を提案する。
我々は,この制約を満たす目標動作を用いてQ学習を行うための,単純で効果的なアルゴリズムであるAdaptive Neighborhood-Constrained Q Learning(ANQ)を開発した。
論文 参考訳(メタデータ) (2025-11-04T13:42:05Z) - RECAST: Expanding the Boundaries of LLMs' Complex Instruction Following with Multi-Constraint Data [47.19854998380304]
RECASTは、既存のベンチマークよりもはるかに多くの制約のあるデータセットを合成するための効率的なフレームワークである。
我々は、19の制約型にまたがる30kインスタンスからなる大規模で高品質なデータセットであるRECAST-30Kを構築した。
実験の結果、RECAST-30Kで微調整されたモデルでは、複雑な命令に従うと大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-05-25T08:31:08Z) - Deep Neural Network for Constraint Acquisition through Tailored Loss
Function [0.0]
データから制約を学習することの重要性は、実世界の問題解決における潜在的な応用によって裏付けられている。
この研究は、シンボリック回帰に基づくディープニューラルネットワーク(DNN)に基づく新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-03-04T13:47:33Z) - On Regularization and Inference with Label Constraints [62.60903248392479]
機械学習パイプラインにおけるラベル制約を符号化するための2つの戦略、制約付き正規化、制約付き推論を比較した。
正規化については、制約に不整合なモデルを前置することで一般化ギャップを狭めることを示す。
制約付き推論では、モデルの違反を訂正することで人口リスクを低減し、それによってその違反を有利にすることを示す。
論文 参考訳(メタデータ) (2023-07-08T03:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。