論文の概要: LSRIF: Logic-Structured Reinforcement Learning for Instruction Following
- arxiv url: http://arxiv.org/abs/2601.06431v2
- Date: Wed, 14 Jan 2026 02:51:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 14:49:41.091502
- Title: LSRIF: Logic-Structured Reinforcement Learning for Instruction Following
- Title(参考訳): LSRIF: 論理構造強化学習
- Authors: Qingyu Ren, Qianyu He, Jingwen Chang, Jie Zeng, Jiaqing Liang, Yanghua Xiao, Han Xia, Zeye Sun, Fei Yu,
- Abstract要約: 命令論理を明示的にモデル化するロジック構造化学習フレームワーク LSRIF を提案する。
実験の結果、LSRIFは命令追従と一般的な推論に大きな改善をもたらすことが示された。
- 参考スコア(独自算出の注目度): 56.517329105764475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-following is critical for large language models, but real-world instructions often contain logical structures such as sequential dependencies and conditional branching. Existing methods typically construct datasets with parallel constraints and optimize average rewards, ignoring logical dependencies and yielding noisy signals. We propose a logic-structured training framework LSRIF that explicitly models instruction logic. We first construct a dataset LSRInstruct with constraint structures such as parallel, sequential, and conditional types, and then design structure-aware rewarding method LSRIF including average aggregation for parallel structures, failure-penalty propagation for sequential structures, and selective rewards for conditional branches. Experiments show LSRIF brings significant improvements in instruction-following (in-domain and out-of-domain) and general reasoning. Analysis reveals that learning with explicit logic structures brings parameter updates in attention layers and sharpens token-level attention to constraints and logical operators.
- Abstract(参考訳): 命令追従は大規模言語モデルにとって重要であるが、実世界の命令は、しばしばシーケンシャルな依存関係や条件分岐のような論理構造を含む。
既存のメソッドは通常、並列な制約でデータセットを構築し、平均的な報酬を最適化し、論理的依存関係を無視し、ノイズの多い信号を生成する。
命令論理を明示的にモデル化するロジック構造化学習フレームワーク LSRIF を提案する。
まず、並列、シーケンシャル、条件付きといった制約構造を持つデータセットLSRインストラクタを構築し、次いで、並列構造に対する平均アグリゲーション、シーケンシャル構造に対する障害費用の伝搬、条件付き分岐に対する選択報酬を含む設計構造対応報酬手法LSRIFを構築した。
実験の結果、LSRIFは命令フォロー(ドメイン内およびドメイン外)と一般的な推論において大幅に改善されている。
分析によると、明示的な論理構造による学習は、注意層にパラメータの更新をもたらし、制約や論理演算子へのトークンレベルの注意を鋭くする。
関連論文リスト
- Last Layer Logits to Logic: Empowering LLMs with Logic-Consistent Structured Knowledge Reasoning [55.55968342644846]
大規模言語モデル(LLM)は、膨大な非構造化テキストの事前学習を通じて、自然言語推論タスクにおいて優れた性能を達成する。
LLM出力の論理的欠陥を修正するために,ロジット強化とロジットフィルタリングをコアモジュールとして組み込んだ textitLogits-to-Logic フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-11T07:08:27Z) - Structure-R1: Dynamically Leveraging Structural Knowledge in LLM Reasoning through Reinforcement Learning [29.722512436773638]
本稿では,検索したコンテンツを推論に最適化した構造化表現に変換するフレームワークであるtextscStructure-R1を提案する。
textscStructure-R1は、7Bスケールのバックボーンモデルとの競合性能を一貫して達成していることを示す。
我々の理論的分析は,情報密度と文脈的明瞭度を向上させることによって,構造化表現が推論をいかに促進するかを示す。
論文 参考訳(メタデータ) (2025-10-16T23:19:28Z) - ReasoningFlow: Semantic Structure of Complex Reasoning Traces [9.328084104525834]
ReasoningFlowはトレースを非巡回グラフに解析し、サブグラフ構造として異なる推論パターンを特徴づけることを可能にする。
この人間解釈可能な表現は、LRMの推論プロセスを理解し、評価し、拡張する上で有望な応用を提供する。
論文 参考訳(メタデータ) (2025-06-03T07:11:34Z) - TLINet: Differentiable Neural Network Temporal Logic Inference [10.36033062385604]
本稿では,STL式を学習するニューラルネットワークシンボリックフレームワークであるTLINetを紹介する。
従来の手法とは対照的に,時間論理に基づく勾配法に特化して設計された最大演算子の近似法を導入する。
我々のフレームワークは、構造だけでなく、STL公式のパラメータも学習し、演算子と様々な論理構造の柔軟な組み合わせを可能にします。
論文 参考訳(メタデータ) (2024-05-03T16:38:14Z) - Modeling Hierarchical Reasoning Chains by Linking Discourse Units and
Key Phrases for Reading Comprehension [80.99865844249106]
本稿では,論理的推論の基盤として,対話レベルと単語レベルの両方の文脈を扱う総合グラフネットワーク(HGN)を提案する。
具体的には、ノードレベルの関係とタイプレベルの関係は、推論過程におけるブリッジと解釈できるが、階層的な相互作用機構によってモデル化される。
論文 参考訳(メタデータ) (2023-06-21T07:34:27Z) - Query Structure Modeling for Inductive Logical Reasoning Over Knowledge
Graphs [67.043747188954]
KGに対する帰納的論理的推論のための構造モデル付きテキスト符号化フレームワークを提案する。
線形化されたクエリ構造とエンティティを、事前訓練された言語モデルを使ってエンコードして、回答を見つける。
2つの帰納的論理推論データセットと3つの帰納的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-05-23T01:25:29Z) - Discourse-Aware Graph Networks for Textual Logical Reasoning [142.0097357999134]
パッセージレベルの論理関係は命題単位間の係り合いまたは矛盾を表す(例、結論文)
論理的推論QAを解くための論理構造制約モデリングを提案し、談話対応グラフネットワーク(DAGN)を導入する。
ネットワークはまず、インラインの談話接続とジェネリック論理理論を利用した論理グラフを構築し、その後、エッジ推論機構を用いて論理関係を進化させ、グラフ機能を更新することで論理表現を学習する。
論文 参考訳(メタデータ) (2022-07-04T14:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。