論文の概要: LLMs for Relational Reasoning: How Far are We?
- arxiv url: http://arxiv.org/abs/2401.09042v1
- Date: Wed, 17 Jan 2024 08:22:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 16:39:17.429366
- Title: LLMs for Relational Reasoning: How Far are We?
- Title(参考訳): 関係推論のためのllms: どこまであるのか?
- Authors: Zhiming Li, Yushi Cao, Xiufeng Xu, Junzhe Jiang, Xu Liu, Yon Shin Teo,
Shang-wei Lin, Yang Liu
- Abstract要約: 大規模言語モデル(LLM)は、下流タスクで最先端のパフォーマンスを達成することで、多くの領域に革命をもたらした。
近年の取り組みにより,LSMは逐次決定問題の解決に乏しいことが示されている。
- 参考スコア(独自算出の注目度): 8.840750655261251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have revolutionized many areas (e.g. natural
language processing, software engineering, etc.) by achieving state-of-the-art
performance on extensive downstream tasks. Aiming to achieve robust and general
artificial intelligence, there has been a surge of interest in investigating
the reasoning ability of the LLMs. Whereas the textual and numerical reasoning
benchmarks adopted by previous works are rather shallow and simple, it is hard
to conclude that the LLMs possess strong reasoning ability by merely achieving
positive results on these benchmarks. Recent efforts have demonstrated that the
LLMs are poor at solving sequential decision-making problems that require
common-sense planning by evaluating their performance on the reinforcement
learning benchmarks. In this work, we conduct an in-depth assessment of several
state-of-the-art LLMs' reasoning ability based on the inductive logic
programming (ILP) benchmark, which is broadly recognized as a representative
and challenging measurement for evaluating logic program induction/synthesis
systems as it requires inducing strict cause-effect logic to achieve robust
deduction on independent and identically distributed (IID) and
out-of-distribution (OOD) test samples. Our evaluations illustrate that
compared with the neural program induction systems which are much smaller in
model size, the state-of-the-art LLMs are much poorer in terms of reasoning
ability by achieving much lower performance and generalization using either
natural language prompting or truth-value matrix prompting.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの分野(自然言語処理、ソフトウェア工学など)に革命をもたらし、広範囲の下流タスクで最先端のパフォーマンスを達成する。
堅牢で汎用的な人工知能の実現を目指して、LLMの推論能力の研究への関心が高まっている。
従来の研究で採用したテキスト推論と数値推論のベンチマークは比較的浅く単純なものであるが、これらのベンチマークで単に肯定的な結果を得るだけで、LSMは強い推論能力を持っていると結論付けるのは難しい。
近年,強化学習ベンチマークの性能評価により,共通感覚計画を必要とする逐次的意思決定問題に対するllmの問題点が指摘されている。
本研究では,独立系および同分布系(IID)および外分布系(OOD)テストサンプルに対するロバストな推論を実現するために,厳密な因果効果論理を導出する必要があるため,論理プログラムの帰納/合成システムを評価するための代表的かつ困難な測定方法として広く認識されているILPベンチマークに基づいて,最先端のLLMの推論能力を詳細に評価する。
本評価は, モデルサイズがはるかに小さいニューラルプログラム誘導システムと比較して, 自然言語のプロンプトや真理値行列のプロンプトを用いて, より低い性能と一般化を達成し, 推論能力において最先端のLCMの方がはるかに劣っていることを示す。
関連論文リスト
- Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data [53.433309883370974]
本研究では,大規模言語モデルの推論能力を高めるための学習信号としてグラフベースの合成推論データを使用することの可能性と限界について検討する。
2つの確立された自然言語推論タスクにおいて,合成グラフに基づく推論データによる教師付き微調整が,他の標準評価ベンチマークでの有効性を損なうことなく,LLMの推論性能を効果的に向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T03:39:09Z) - Inductive Learning of Logical Theories with LLMs: A Complexity-graded Analysis [9.865771016218549]
本研究は,Large Language Models(LLM)の機能と限界を分析するための,新しい体系的方法論を提案する。
この分析は、LLM性能に関する特定の推論課題の定量化を可能にする、複雑性グレードのw.r.t.ルール依存構造である。
論文 参考訳(メタデータ) (2024-08-15T16:41:00Z) - Thought-Like-Pro: Enhancing Reasoning of Large Language Models through Self-Driven Prolog-based Chain-of-Thought [31.964412924094656]
大規模言語モデル(LLM)は汎用アシスタントとして非常に優れた性能を示している。
多様な推論タスクにおける学習と一般化を容易にする新しい学習フレームワークTHOUGHT-LIKE-PROを導入する。
実験結果から,本手法はLLMの推論能力を大幅に向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-18T18:52:10Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Concise and Organized Perception Facilitates Reasoning in Large Language Models [32.71672086718057]
大規模言語モデル (LLM) は, 推論作業における乱雑な内容や無関係な内容を扱う際に, 人間の認知バイアスに類似した障害パターンを示す。
コンシス・アンド・オーガナイズド・パーセプション(COP)という新しい推論手法を提案する。
COPは与えられたステートメントを慎重に分析し、冗長性を効率的に排除しながら、最も関連する情報を識別する。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。