Fugu-MT 論文翻訳(概要): Selection-Inference: Exploiting Large Language Models for Interpretable Logical Reasoning

論文の概要: Selection-Inference: Exploiting Large Language Models for Interpretable Logical Reasoning

arxiv url: http://arxiv.org/abs/2205.09712v1
Date: Thu, 19 May 2022 17:25:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-20 12:10:53.983149
Title: Selection-Inference: Exploiting Large Language Models for Interpretable Logical Reasoning
Title（参考訳）: selection-inference: 大きな言語モデルを解釈可能な論理推論に活用する
Authors: Antonia Creswell, Murray Shanahan and Irina Higgins
Abstract要約: 言語モデルは1ステップの推論タスクでかなりうまく機能する傾向があるが、より複雑な問題を解決するために複数の推論ステップをチェーン化するのに苦労している。本稿では,事前学習したLLMを汎用処理モジュールとして活用する選択推論(SI)フレームワークを提案する。 5ショットの一般化設定でSIフレームワーク内で使用する 7B パラメータ LLM が微調整なしで,100% 以上の性能向上が得られることを示す。
参考スコア（独自算出の注目度）: 14.663216851932646
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have been shown to be capable of impressive few-shot generalisation to new tasks. However, they still tend to perform poorly on multi-step logical reasoning problems. Here we carry out a comprehensive evaluation of LLMs on 50 tasks that probe different aspects of logical reasoning. We show that language models tend to perform fairly well at single step inference or entailment tasks, but struggle to chain together multiple reasoning steps to solve more complex problems. In light of this, we propose a Selection-Inference (SI) framework that exploits pre-trained LLMs as general processing modules, and alternates between selection and inference to generate a series of interpretable, casual reasoning steps leading to the final answer. We show that a 7B parameter LLM used within the SI framework in a 5-shot generalisation setting, with no fine-tuning, yields a performance improvement of over 100% compared to an equivalent vanilla baseline on a suite of 10 logical reasoning tasks. The same model in the same setting even outperforms a significantly larger 280B parameter baseline on the same suite of tasks. Moreover, answers produced by the SI framework are accompanied by a causal natural-language-based reasoning trace, which has important implications for the safety and trustworthiness of the system.
Abstract（参考訳）: 大規模言語モデル(LLM)は、新しいタスクへの印象的な数ショットの一般化を可能にすることが示されている。しかし、それでも多段階論理推論問題では性能が劣る傾向にある。ここでは、論理的推論の異なる側面を探索する50のタスクに対するLLMの総合的な評価を行う。我々は、言語モデルが単一のステップ推論や帰属タスクでかなりうまく機能する傾向があるが、より複雑な問題を解決するために複数の推論ステップを連結するのに苦労していることを示す。そこで本研究では,事前学習したLLMを汎用処理モジュールとして活用し,選択と推論を交互に組み合わせて,解釈可能なカジュアルな推論ステップを生成する,選択推論(SI)フレームワークを提案する。 5ショットの一般化設定でSIフレームワーク内で使用する 7B パラメータ LLM は、微調整なしで、論理的推論タスク10組の等価なバニラベースラインと比較して100%以上の性能向上が得られることを示す。同じ設定で同じモデルでも、同じタスクセットでかなり大きな280Bパラメータのベースラインを上回ります。さらに、SIフレームワークが生み出す回答には、因果的自然言語に基づく推論トレースが伴い、システムの安全性と信頼性に重要な意味を持つ。

関連論文リスト

PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文参考訳（メタデータ） (2025-05-29T17:55:49Z)
Reasoning Capabilities and Invariability of Large Language Models [49.23570751696334]
我々は,大規模言語モデルの推論能力に関する総合的な分析を行うことを目標としている。我々は、浅い論理的推論を要求する一連の単純な推論質問を含む新しいベンチマークデータセットを導入する。ゼロショットと少数ショットを含む実証分析では、70億以上のパラメータを持つLDMがゼロショット設定でより優れた性能を発揮する一方で、改善の余地がまだ大きいことが示されている。
論文参考訳（メタデータ） (2025-05-01T18:12:30Z)
CounterBench: A Benchmark for Counterfactuals Reasoning in Large Language Models [5.409370027524351]
本研究では, 大規模言語モデル(LLM)の性能評価を行った。我々は,新しいベンチマークデータセットであるCounterBenchを紹介した。
論文参考訳（メタデータ） (2025-02-16T06:19:37Z)
Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。このアプローチは、正しい答えが少数派である場合に失敗する。階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文参考訳（メタデータ） (2024-05-21T17:12:19Z)
Self-Discover: Large Language Models Self-Compose Reasoning Structures [136.48389510481758]
タスク固有の推論構造を自己発見するフレームワークであるSELF-DISCOVERを紹介する。 SELF-DISCOVERは、挑戦的推論ベンチマークにおいて、GPT-4とPaLM 2の性能を大幅に改善する。自己発見推論構造は、モデルファミリー全体にわたって普遍的に適用可能であることを示す。
論文参考訳（メタデータ） (2024-02-06T01:13:53Z)
Can LLMs perform structured graph reasoning? [4.676784872259775]
LLM(Pretrained Large Language Models)は、言語ベースのプロンプトだけで様々な推論能力を示す。本稿では,半構造化タスクのプロキシとして,様々なグラフ推論タスクを設計する。上記の課題に対して,5種類のインストラクト微細化LDM (GPT-4, GPT-3.5, Claude-2, Llama-2, Palm-2) をベンチマークした。
論文参考訳（メタデータ） (2024-02-02T09:45:33Z)
LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。 GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文参考訳（メタデータ） (2024-01-01T13:53:53Z)
In-context Learning Generalizes, But Not Always Robustly: The Case of Syntax [36.98247762224868]
In-context Learning (ICL)は、現在、大規模言語モデル(LLM)の新しいタスクを教える一般的な方法である。モデルは、文脈によって定義されたタスクの基盤構造を推論するか、あるいは、同じ分散例にのみ一般化する表面一般化に依存するか? GPT, PaLM, および Llama 2 ファミリーのモデルを用いた実験では, LM 間で大きなばらつきが認められた。この分散は、モデルサイズよりも事前学習コーパスと監督方法の構成によりより説明される。
論文参考訳（メタデータ） (2023-11-13T23:52:43Z)
Coupling Large Language Models with Logic Programming for Robust and General Reasoning from Text [5.532477732693001]
大規模言語モデルは, 意味論的に非常に効果的な数ショットとして機能することを示す。自然言語文を論理形式に変換し、応答集合プログラムの入力として機能する。本手法は,bAbI, StepGame, CLUTRR, gSCAN など,いくつかのベンチマークにおいて最先端性能を実現する。
論文参考訳（メタデータ） (2023-07-15T03:29:59Z)
Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。 2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文参考訳（メタデータ） (2023-05-23T06:13:10Z)
Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文参考訳（メタデータ） (2023-04-23T13:54:39Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)
ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文参考訳（メタデータ） (2022-10-04T00:34:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。