論文の概要: SEER: Facilitating Structured Reasoning and Explanation via
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2401.13246v1
- Date: Wed, 24 Jan 2024 06:10:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 15:16:51.429503
- Title: SEER: Facilitating Structured Reasoning and Explanation via
Reinforcement Learning
- Title(参考訳): SEER:強化学習による構造化推論と説明の促進
- Authors: Guoxin Chen and Kexin Tang and Chao Yang and Fuying Ye and Yu Qiao and
Yiming Qian
- Abstract要約: 構造的推論と説明を容易にする構造的回帰を最大化する新しい手法であるSEERを提案する。
提案手法は構造的推論に固有の階層構造と分岐構造を正確に記述する。
大規模な実験により、SEERは最先端の手法を著しく上回っていることがわかった。
- 参考スコア(独自算出の注目度): 31.27430164522226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Elucidating the reasoning process with structured explanations from question
to answer is fundamentally crucial, as it significantly enhances the
interpretability and trustworthiness of question-answering (QA) systems.
However, structured explanations demand models to perform intricate structured
reasoning, which poses great challenges. Most existing methods focus on
single-step reasoning through supervised learning, ignoring logical
dependencies between steps. Meanwhile, existing reinforcement learning
(RL)-based methods overlook the structured relationships, impeding RL's
potential in structured reasoning. In this paper, we propose SEER, a novel
method that maximizes a structure-based return to facilitate structured
reasoning and explanation. Our proposed structure-based return precisely
describes the hierarchical and branching structure inherent in structured
reasoning, effectively capturing the intricate relationships between states. We
also introduce a fine-grained reward function to meticulously delineate diverse
reasoning steps. Extensive experiments show that SEER significantly outperforms
state-of-the-art methods, achieving an absolute improvement of 6.9% over
RL-based methods on EntailmentBank, a 4.4% average improvement on STREET
benchmark, and exhibiting outstanding efficiency and cross-dataset
generalization performance.
- Abstract(参考訳): 質問回答システム(QA)の解釈可能性と信頼性を著しく向上させるため、質問から回答までの構造化された説明による推論プロセスの解明は基本的に重要である。
しかし、構造的説明は複雑な構造的推論を行うためにモデルを必要とするため、大きな課題が生じる。
既存のメソッドのほとんどは、教師付き学習による単一ステップ推論に重点を置いており、ステップ間の論理的依存関係を無視している。
一方、既存の強化学習(RL)に基づく手法は構造的関係を見落とし、構造的推論におけるRLの可能性を妨げる。
本稿では,構造的推論と説明を容易にする構造的回帰を最大化する手法であるSEERを提案する。
提案手法は,構造的推論に固有の階層構造と分岐構造を正確に記述し,状態間の複雑な関係を効果的に捉える。
また,様々な推論手順を細部まで考慮し,細粒度報酬関数を導入する。
SEERは最先端の手法を著しく上回り、EntailmentBankのRLベースの手法よりも6.9%向上し、STREETベンチマークの平均4.4%改善し、優れた効率とクロスデータセットの一般化性能を示した。
関連論文リスト
- Enhancing Systematic Decompositional Natural Language Inference Using
Informal Logic [53.363888563647976]
我々は,分解包含データセットに注釈を付けるための一貫した理論的なアプローチを開発した。
得られたデータセットRDTEは,従来よりも内部整合性(+9%)が高いことがわかった。
また, 知識蒸留によるRDTE指向エンテーメント分類器の訓練や, 現代のニューロシンボリック推論エンジンへの導入により, 結果が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2024-02-22T18:55:17Z) - Learning by Doing: An Online Causal Reinforcement Learning Framework
with Causal-Aware Policy [40.33036146207819]
我々は、図形因果モデルを用いて、状態の生成過程を明示的にモデル化することを検討する。
我々は、環境のアクティブな介入学習とRL相互作用プロセスに更新する因果構造を定式化する。
論文 参考訳(メタデータ) (2024-02-07T14:09:34Z) - Self-Discover: Large Language Models Self-Compose Reasoning Structures [136.48389510481758]
タスク固有の推論構造を自己発見するフレームワークであるSELF-DISCOVERを紹介する。
SELF-DISCOVERは、挑戦的推論ベンチマークにおいて、GPT-4とPaLM 2の性能を大幅に改善する。
自己発見推論構造は、モデルファミリー全体にわたって普遍的に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-02-06T01:13:53Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - Parrot Mind: Towards Explaining the Complex Task Reasoning of Pretrained Large Language Models with Template-Content Structure [66.33623392497599]
テンプレート・コンテント構造(T-C構造)と呼ばれる構造は指数レベルから線形レベルへの可能な空間を減少させることができることを示す。
モデルがタスク構成を達成でき、線形から対数への学習に必要なスペースをさらに削減できることを実証する。
論文 参考訳(メタデータ) (2023-10-09T06:57:45Z) - UPAR: A Kantian-Inspired Prompting Framework for Enhancing Large
Language Model Capabilities [4.223946773134886]
大規模言語モデル(LLM)における人間の認知構造をエミュレートする枠組みを提案する。
UPARプロンプトフレームワークは、"Understand"、"Plan"、"Act"、"Reflect"の4つのフェーズに分けられる。
GPT-4では、GSM8Kの挑戦的なサブセットで22.92%から58.33%、因果判定タスクで67.91%から75.40%まで精度が向上する。
論文 参考訳(メタデータ) (2023-09-30T20:18:50Z) - Modeling Hierarchical Reasoning Chains by Linking Discourse Units and
Key Phrases for Reading Comprehension [80.99865844249106]
本稿では,論理的推論の基盤として,対話レベルと単語レベルの両方の文脈を扱う総合グラフネットワーク(HGN)を提案する。
具体的には、ノードレベルの関係とタイプレベルの関係は、推論過程におけるブリッジと解釈できるが、階層的な相互作用機構によってモデル化される。
論文 参考訳(メタデータ) (2023-06-21T07:34:27Z) - Unifying Structure Reasoning and Language Model Pre-training for Complex
Reasoning [26.811507121199323]
本稿では,明示的な構造推論と言語事前学習を組み合わせ,PLMと構造推論のスキルを融合した統合学習フレームワークを提案する。
まず、コンテクスト内のいくつかの基本構造を識別し、構造化されたクエリを構築し、クエリに沿ってステップバイステップの推論を行い、回答エンティティを識別する。
4つのデータセットに対する実験結果から,提案モデルが多様構造を含む複雑な推論タスクにおいて,大幅な改善を達成できることが示されている。
論文 参考訳(メタデータ) (2023-01-21T08:18:11Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。