論文の概要: Selection-Inference: Exploiting Large Language Models for Interpretable
Logical Reasoning
- arxiv url: http://arxiv.org/abs/2205.09712v1
- Date: Thu, 19 May 2022 17:25:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 12:10:53.983149
- Title: Selection-Inference: Exploiting Large Language Models for Interpretable
Logical Reasoning
- Title(参考訳): selection-inference: 大きな言語モデルを解釈可能な論理推論に活用する
- Authors: Antonia Creswell, Murray Shanahan and Irina Higgins
- Abstract要約: 言語モデルは1ステップの推論タスクでかなりうまく機能する傾向があるが、より複雑な問題を解決するために複数の推論ステップをチェーン化するのに苦労している。
本稿では,事前学習したLLMを汎用処理モジュールとして活用する選択推論(SI)フレームワークを提案する。
5ショットの一般化設定でSIフレームワーク内で使用する 7B パラメータ LLM が微調整なしで,100% 以上の性能向上が得られることを示す。
- 参考スコア(独自算出の注目度): 14.663216851932646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have been shown to be capable of impressive
few-shot generalisation to new tasks. However, they still tend to perform
poorly on multi-step logical reasoning problems. Here we carry out a
comprehensive evaluation of LLMs on 50 tasks that probe different aspects of
logical reasoning. We show that language models tend to perform fairly well at
single step inference or entailment tasks, but struggle to chain together
multiple reasoning steps to solve more complex problems. In light of this, we
propose a Selection-Inference (SI) framework that exploits pre-trained LLMs as
general processing modules, and alternates between selection and inference to
generate a series of interpretable, casual reasoning steps leading to the final
answer. We show that a 7B parameter LLM used within the SI framework in a
5-shot generalisation setting, with no fine-tuning, yields a performance
improvement of over 100% compared to an equivalent vanilla baseline on a suite
of 10 logical reasoning tasks. The same model in the same setting even
outperforms a significantly larger 280B parameter baseline on the same suite of
tasks. Moreover, answers produced by the SI framework are accompanied by a
causal natural-language-based reasoning trace, which has important implications
for the safety and trustworthiness of the system.
- Abstract(参考訳): 大規模言語モデル(LLM)は、新しいタスクへの印象的な数ショットの一般化を可能にすることが示されている。
しかし、それでも多段階論理推論問題では性能が劣る傾向にある。
ここでは、論理的推論の異なる側面を探索する50のタスクに対するLLMの総合的な評価を行う。
我々は、言語モデルが単一のステップ推論や帰属タスクでかなりうまく機能する傾向があるが、より複雑な問題を解決するために複数の推論ステップを連結するのに苦労していることを示す。
そこで本研究では,事前学習したLLMを汎用処理モジュールとして活用し,選択と推論を交互に組み合わせて,解釈可能なカジュアルな推論ステップを生成する,選択推論(SI)フレームワークを提案する。
5ショットの一般化設定でSIフレームワーク内で使用する 7B パラメータ LLM は、微調整なしで、論理的推論タスク10組の等価なバニラベースラインと比較して100%以上の性能向上が得られることを示す。
同じ設定で同じモデルでも、同じタスクセットでかなり大きな280Bパラメータのベースラインを上回ります。
さらに、SIフレームワークが生み出す回答には、因果的自然言語に基づく推論トレースが伴い、システムの安全性と信頼性に重要な意味を持つ。
関連論文リスト
- Self-Discover: Large Language Models Self-Compose Reasoning Structures [136.48389510481758]
タスク固有の推論構造を自己発見するフレームワークであるSELF-DISCOVERを紹介する。
SELF-DISCOVERは、挑戦的推論ベンチマークにおいて、GPT-4とPaLM 2の性能を大幅に改善する。
自己発見推論構造は、モデルファミリー全体にわたって普遍的に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-02-06T01:13:53Z) - In-context Learning Generalizes, But Not Always Robustly: The Case of
Syntax [40.40069999922899]
In-context Learning (ICL)は、大規模言語モデル(LLM)を監督する一般的な方法である。
ICLの普及と実用性にもかかわらず、このような方法で教師付きモデルがタスクの基盤構造を表すかどうかはほとんど分かっていない。
論文 参考訳(メタデータ) (2023-11-13T23:52:43Z) - Learning To Teach Large Language Models Logical Reasoning [33.88499005859982]
大規模言語モデル(LLM)は、学術と産業の両方から大きな注目を集めている。
しかし、現在のLLMは、その固有の問題のために、実用的な推論タスクにおいて信頼性の低いコンテンツを出力している。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Coupling Large Language Models with Logic Programming for Robust and
General Reasoning from Text [5.532477732693001]
大規模言語モデルは, 意味論的に非常に効果的な数ショットとして機能することを示す。
自然言語文を論理形式に変換し、応答集合プログラムの入力として機能する。
本手法は,bAbI, StepGame, CLUTRR, gSCAN など,いくつかのベンチマークにおいて最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-15T03:29:59Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in
Large Language Models [85.07648361429816]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z) - Multimodal Chain-of-Thought Reasoning in Language Models [80.902171201496]
大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)を利用して複雑な推論において印象的な性能を示した。
本稿では,視覚機能を分離したトレーニングフレームワークに組み込んだマルチモーダルCoTを提案する。
Multimodal-CoTでは、ScienceQAベンチマークで10億のパラメータ未満のモデルで、従来の最先端のLCM(GPT-3.5)を16%(75.17%->91.68%)上回るパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。
我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文 参考訳(メタデータ) (2022-10-04T00:34:01Z) - Large Language Models are Zero-Shot Reasoners [28.6899375595088]
思考の連鎖(CoT)プロンプトは、ステップバイステップの回答例を通して複雑な多段階推論を引き出す手法である。
LLMは、各回答の前に単に「ステップバイステップ」を追加して、まともなゼロショット推論子であることを示す。
実験結果から,同一のプロンプトテンプレートを用いたZero-shot-CoTはゼロショットLLM性能を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-24T09:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。