Fugu-MT 論文翻訳(概要): Differentiable Logic Machines

論文の概要: Differentiable Logic Machines

arxiv url: http://arxiv.org/abs/2102.11529v5
Date: Wed, 5 Jul 2023 22:00:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-07 18:58:28.419026
Title: Differentiable Logic Machines
Title（参考訳）: 微分可能な論理機械
Authors: Matthieu Zimmer and Xuening Feng and Claire Glanois and Zhaohui Jiang and Jianyi Zhang and Paul Weng and Dong Li and Jianye Hao and Wulong Liu
Abstract要約: 微分可能論理マシン(DLM)と呼ばれる新しいニューラル論理アーキテクチャを提案する。 DLMは帰納論理プログラミング(ILP)と強化学習(RL)の両方の問題を解くことができる。解釈可能な解を必要としないRL問題では、DLMは他の解釈不可能なニューラル論理的RLアプローチよりも優れている。
参考スコア（独自算出の注目度）: 38.21461039738474
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The integration of reasoning, learning, and decision-making is key to build more general artificial intelligence systems. As a step in this direction, we propose a novel neural-logic architecture, called differentiable logic machine (DLM), that can solve both inductive logic programming (ILP) and reinforcement learning (RL) problems, where the solution can be interpreted as a first-order logic program. Our proposition includes several innovations. Firstly, our architecture defines a restricted but expressive continuous relaxation of the space of first-order logic programs by assigning weights to predicates instead of rules, in contrast to most previous neural-logic approaches. Secondly, with this differentiable architecture, we propose several (supervised and RL) training procedures, based on gradient descent, which can recover a fully-interpretable solution (i.e., logic formula). Thirdly, to accelerate RL training, we also design a novel critic architecture that enables actor-critic algorithms. Fourthly, to solve hard problems, we propose an incremental training procedure that can learn a logic program progressively. Compared to state-of-the-art (SOTA) differentiable ILP methods, DLM successfully solves all the considered ILP problems with a higher percentage of successful seeds (up to 3.5$\times$). On RL problems, without requiring an interpretable solution, DLM outperforms other non-interpretable neural-logic RL approaches in terms of rewards (up to 3.9%). When enforcing interpretability, DLM can solve harder RL problems (e.g., Sorting, Path) Moreover, we show that deep logic programs can be learned via incremental supervised training. In addition to this excellent performance, DLM can scale well in terms of memory and computational time, especially during the testing phase where it can deal with much more constants ($>$2$\times$) than SOTA.
Abstract（参考訳）: 推論、学習、意思決定の統合は、より一般的な人工知能システムを構築する上で鍵となる。この方向の一歩として,インダクティブ・ロジック・プログラミング (ilp) と強化学習 (rl) の問題を解決し,その解を一階述語論理プログラムとして解釈できる,微分可能論理機械 (dlm) と呼ばれる新しいニューラル・ロジック・アーキテクチャを提案する。私たちの提案にはいくつかのイノベーションが含まれている。第一に、我々のアーキテクチャは、ルールの代わりに述語に重みを割り当てることで、一階論理プログラムの空間を制限されるが表現力に富んだ連続緩和を定義する。第二に、この微分可能なアーキテクチャを用いて、完全に解釈可能な解(すなわち論理式)を復元できる勾配降下に基づく複数の(教師付きおよびRL)訓練手順を提案する。第3に、RLトレーニングを加速するために、アクター批判アルゴリズムを実現する新しい批評家アーキテクチャを設計する。第4に,難解な問題を解くために,論理プログラムを段階的に学習できるインクリメンタルな学習手順を提案する。最先端(SOTA)微分可能なILP法と比較して、DLMは高い成功率の種子(3.5$\times$)で検討された全てのILP問題の解決に成功した。 RL問題では、解釈可能な解を必要とすることなく、DLMは報酬(最大3.9%)で他の非解釈可能な神経論理的RLアプローチより優れている。 DLMは、解釈可能性を実現する際に、より難しいRL問題(例えば、ソーティング、パス)を解くことができる。この優れたパフォーマンスに加えて、DLMは、特にSOTAよりもはるかに多くの定数($2$\times$)を扱うテストフェーズにおいて、メモリと計算時間の観点からうまくスケールすることができる。

関連論文リスト

Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
RL for Reasoning by Adaptively Revealing Rationales [36.50924054394857]
監督された微調整(SFT)は密度の高い地下構造ラベルに依存しており、シーケンスの長さが大きくなるにつれてコストが増大する。 AdaBack(アダプティブ・バックトラック)は,学習中の目標出力の部分的なプレフィックスのみを明らかにする,サンプルごとのカリキュラム学習アルゴリズムである。部分解に対する適応的なカリキュラムは、そうでなければ難解な問題を確実に解決することを示します。
論文参考訳（メタデータ） (2025-06-22T17:46:14Z)
RL of Thoughts: Navigating LLM Reasoning with Inference-time Reinforcement Learning [10.987902254146219]
我々は、推論時間における推論を適応的に強化するために、強化学習(RL)を用いた軽量ナビゲータモデルを訓練する。 RLナビゲータは3Kパラメータ未満で、100BスケールのLLMに匹敵するサブ10BのLLMを作ることができる。
論文参考訳（メタデータ） (2025-05-20T09:43:33Z)
Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。 Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文参考訳（メタデータ） (2025-05-19T17:24:16Z)
Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。 Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文参考訳（メタデータ） (2025-03-31T17:55:23Z)
General Reasoning Requires Learning to Reason from the Get-go [19.90997698310839]
大規模言語モデル(LLM)は、実世界の素晴らしいユーティリティを実証している。しかし、適応的かつ堅牢に推論できる能力は、脆弱なままだ。我々は3つの重要な方向から知識と推論を解き放つことを提案する。
論文参考訳（メタデータ） (2025-02-26T18:51:12Z)
Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning [23.99454995087634]
大規模推論モデルにおけるルールベース強化学習の可能性について検討する。合成論理パズルは, 制御可能な複雑性と簡単な解答検証により, 学習データとして用いられる。我々の7Bモデルは、論理コーパスにはない、リフレクション、検証、要約のような高度な推論スキルを発達させる。
論文参考訳（メタデータ） (2025-02-20T17:49:26Z)
Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-07T21:36:52Z)
Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths [69.39559168050923]
本稿では,多様な経路から学習の推論と探索を可能にするReasoning Paths Optimization (RPO)を紹介する。提案手法は,各推論ステップにおいて好意的な分岐を奨励し,好ましくない分岐を罰し,モデル全体の問題解決性能を高める。我々は,数語問題や理科ベースの試験問題など,多段階の推論タスクに焦点をあてる。
論文参考訳（メタデータ） (2024-10-07T06:37:25Z)
Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
大規模言語モデル(LLM)に基づくKG上の複雑な推論スキーマを提案する。任意の一階論理クエリを二分木分解により拡張し、LLMの推論能力を刺激する。広く使われているデータセットに対する実験では、LACTは高度な手法よりも大幅に改善されている(平均+5.5% MRRスコア)。
論文参考訳（メタデータ） (2024-05-02T18:12:08Z)
Assessing Logical Reasoning Capabilities of Encoder-Only Transformer Models [0.13194391758295113]
本稿では,エンコーダのみのトランスフォーマー言語モデル (LM) が論理規則に従ってどの程度理にかなっているかを検討する。様々なデータセットの論理的妥当性を決定するために,エンコーダのみのLMを適度に訓練できることを示す。これらのデータセット上で微調整されたモデルをクロスプロブすることで、LMはそれらの仮定的論理的推論能力の伝達が困難であることを示す。
論文参考訳（メタデータ） (2023-12-18T21:42:34Z)
Language Models can be Logical Solvers [99.40649402395725]
論理解法の推論過程を直接エミュレートする新しい言語モデルであるLoGiPTを導入する。 LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。
論文参考訳（メタデータ） (2023-11-10T16:23:50Z)
AISYN: AI-driven Reinforcement Learning-Based Logic Synthesis Framework [0.8356765961526955]
我々は人工知能(AI)と強化学習(RL)アルゴリズムがこの問題の解決に役立つと考えている。オープンソースのベンチマーク回路と産業用ベンチマーク回路を併用した実験により,論理合成最適化関数をAI駆動にすることで,面積,遅延,電力といった重要な指標を大幅に改善できることが判明した。
論文参考訳（メタデータ） (2023-02-08T00:55:24Z)
End-to-end Algorithm Synthesis with Recurrent Networks: Logical Extrapolation Without Overthinking [52.05847268235338]
機械学習システムが問題を過度に考えずに論理的外挿を行う方法を示す。本稿では,問題インスタンスの明示的なコピーをメモリに保持して,それを忘れないようにするリコールアーキテクチャを提案する。また、モデルが数に固有の行動を学ぶのを防ぎ、無期限に繰り返される行動を学ぶためにモデルをプッシュするプログレッシブトレーニングルーチンも採用しています。
論文参考訳（メタデータ） (2022-02-11T18:43:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。