論文の概要: Reward Engineering for Generating Semi-structured Explanation
- arxiv url: http://arxiv.org/abs/2309.08347v1
- Date: Fri, 15 Sep 2023 12:10:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 14:52:35.200740
- Title: Reward Engineering for Generating Semi-structured Explanation
- Title(参考訳): 半構造説明生成のためのリワードエンジニアリング
- Authors: Jiuzhou Han, Wray Buntine, Ehsan Shareghi
- Abstract要約: 半構造化された説明は、明示的な表現を持つ推論者の暗黙の過程を描いている。
この説明は、特定のクエリで利用可能な情報が、内部重みから回答を生成するための情報で補う方法を強調する。
- 参考スコア(独自算出の注目度): 11.49422399721136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semi-structured explanation depicts the implicit process of a reasoner with
an explicit representation. This explanation highlights how available
information in a specific query is supplemented with information a reasoner
produces from its internal weights towards generating an answer. Despite the
recent improvements in generative capabilities of language models, producing
structured explanations to verify model's true reasoning capabilities remains a
challenge. This issue is particularly pronounced for not-so-large LMs, as the
reasoner is expected to couple a sequential answer with a structured
explanation which embodies both the correct presentation and the correct
reasoning process. In this work, we first underscore the limitations of
supervised fine-tuning (SFT) in tackling this challenge, and then introduce a
carefully crafted reward engineering method in reinforcement learning (RL) to
better address this problem. We investigate multiple reward aggregation methods
and provide a detailed discussion which sheds light on the promising potential
of RL for future research. Our proposed reward on two semi-structured
explanation generation benchmarks (ExplaGraph and COPA-SSE) achieves new
state-of-the-art results.
- Abstract(参考訳): 半構造的な説明は、明示的な表現を持つ推論者の暗黙のプロセスを記述する。
この説明は、特定のクエリで利用可能な情報が、内部重みから回答を生成するための情報で補う方法を強調する。
言語モデルの生成能力は近年改善されているが、モデルの真の推論能力を検証する構造的な説明を生成することは依然として課題である。
この問題は, 正しい提示と正しい推論プロセスの両方を具現化した構造化された説明と, 逐次的な回答を関連付けることが期待されているため, 特に大きなLMでは顕著である。
本研究ではまず,この課題に対処する上で,教師付き微調整(SFT)の限界を強調し,その解決のために強化学習(RL)における報酬工学手法を慎重に導入する。
本稿では,複数の報酬集計手法について検討し,今後の研究開発におけるRLの可能性を明らかにする。
提案手法は,2つの半構造化説明生成ベンチマーク(ExplaGraphとCOPA-SSE)において,新しい最先端結果を実現する。
関連論文リスト
- Selective Explanations [14.312717332216073]
機械学習モデルは、1つの推論だけで特徴属性スコアを予測するために訓練される。
その効率にもかかわらず、償却された説明者は不正確な予測や誤解を招く説明を生み出すことができる。
そこで本稿では,低品質な説明文を生成する際の特徴帰属手法である選択的説明文を提案する。
論文 参考訳(メタデータ) (2024-05-29T23:08:31Z) - FaithLM: Towards Faithful Explanations for Large Language Models [67.29893340289779]
大きな言語モデル(LLM)は、内部知識と推論能力を活用することで複雑なタスクに対処するのに熟練している。
これらのモデルのブラックボックスの性質は、意思決定プロセスを説明するタスクを複雑にしている。
自然言語 (NL) による LLM の決定を説明するために FaithLM を紹介した。
論文 参考訳(メタデータ) (2024-02-07T09:09:14Z) - Leveraging Structured Information for Explainable Multi-hop Question
Answering and Reasoning [14.219239732584368]
本研究では,マルチホップ質問応答のための抽出された意味構造(グラフ)の構築と活用について検討する。
実験結果と人的評価の結果から、我々のフレームワークはより忠実な推論連鎖を生成し、2つのベンチマークデータセットのQA性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-07T05:32:39Z) - Learning with Explanation Constraints [91.23736536228485]
我々は、説明がモデルの学習をどのように改善するかを分析するための学習理論フレームワークを提供する。
我々は,多数の合成および実世界の実験に対して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T15:06:47Z) - ExaRanker: Explanation-Augmented Neural Ranker [67.4894325619275]
本研究は,ニューラルランサーが説明の恩恵を受けることを示す。
我々は、GPT-3.5のようなLCMを用いて、説明付き検索データセットを増強する。
ExaRankerと呼ばれる私たちのモデルは、数千の例で微調整され、合成説明は、説明なしで3倍の例で微調整されたモデルと同等に実行される。
論文 参考訳(メタデータ) (2023-01-25T11:03:04Z) - Explanations from Large Language Models Make Small Reasoners Better [61.991772773700006]
提案手法は, 異なる設定において, 微調整ベースラインを連続的に, 著しく向上させることができることを示す。
副次的な利点として、人間の評価は、その予測を正当化するために高品質な説明を生成することができることを示す。
論文 参考訳(メタデータ) (2022-10-13T04:50:02Z) - Entailment Tree Explanations via Iterative Retrieval-Generation Reasoner [56.08919422452905]
我々はIRGR(Iterative Retrieval-Generation Reasoner)と呼ばれるアーキテクチャを提案する。
本モデルでは,テキストの前提からステップバイステップの説明を体系的に生成することにより,与えられた仮説を説明することができる。
前提条件の検索と細分化木の生成に関する既存のベンチマークを上回り、全体の正しさはおよそ300%向上した。
論文 参考訳(メタデータ) (2022-05-18T21:52:11Z) - Discrete Reasoning Templates for Natural Language Understanding [79.07883990966077]
我々は,複雑な質問をより単純な質問に分解する手法を提案する。
事前定義された推論テンプレートの指示に従って最終回答を導出する。
我々のアプローチは、解釈可能でありながら最先端技術と競合し、監督をほとんど必要としないことを示す。
論文 参考訳(メタデータ) (2021-04-05T18:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。