論文の概要: IDOL: Indicator-oriented Logic Pre-training for Logical Reasoning
- arxiv url: http://arxiv.org/abs/2306.15273v1
- Date: Tue, 27 Jun 2023 07:57:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 14:21:50.937248
- Title: IDOL: Indicator-oriented Logic Pre-training for Logical Reasoning
- Title(参考訳): IDOL: 論理推論のための指標指向論理事前学習
- Authors: Zihang Xu, Ziqing Yang, Yiming Cui, Shijin Wang
- Abstract要約: IDOL(InDicator-Oriented Logic Pre-training)は、理解しやすいが、より効果的な事前トレーニングタスクである。
IDOLは論理的推論において最も代表的な2つのベンチマークであるReClorとLogiQAで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 18.290234272129478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of machine reading comprehension (MRC), existing systems have
surpassed the average performance of human beings in many tasks like SQuAD.
However, there is still a long way to go when it comes to logical reasoning.
Although some methods for it have been put forward, they either are designed in
a quite complicated way or rely too much on external structures. In this paper,
we proposed IDOL (InDicator-Oriented Logic Pre-training), an easy-to-understand
but highly effective further pre-training task which logically strengthens the
pre-trained models with the help of 6 types of logical indicators and a
logically rich dataset LGP (LoGic Pre-training). IDOL achieves state-of-the-art
performance on ReClor and LogiQA, the two most representative benchmarks in
logical reasoning MRC, and is proven to be capable of generalizing to different
pre-trained models and other types of MRC benchmarks like RACE and SQuAD 2.0
while keeping competitive general language understanding ability through
testing on tasks in GLUE. Besides, at the beginning of the era of large
language models, we take several of them like ChatGPT into comparison and find
that IDOL still shows its advantage.
- Abstract(参考訳): 機械読み取り理解(MRC)の分野では、既存のシステムはSQuADのような多くのタスクにおいて人間の平均性能を上回っている。
しかし、論理的推論に関しては、まだ長い道のりがあります。
いくつかの方法が提案されているが、非常に複雑な方法で設計されているか、外部構造に依存しすぎている。
本稿では,6種類の論理指標と論理的にリッチなデータセットLGP(LoGic Pre-training)の助けを借りて,事前学習モデルの論理的強化を図った,分かりやすいが効果的な事前学習タスクであるIDOL(InDicator-Oriented Logic Pre-training)を提案する。
IDOLは、論理的推論における最も代表的な2つのベンチマークであるReClorとLogiQAの最先端性能を実現し、GLUEのタスクのテストを通じて、競争力のある汎用言語理解能力を保ちながら、様々な事前訓練されたモデルやRSEやSQuAD 2.0のような他の種類のMRCベンチマークに一般化できることが証明されている。
さらに、大規模な言語モデルの初期においては、ChatGPTのようないくつかのモデルを比較して、IDOLが依然としてその優位性を示していることに気付きました。
関連論文リスト
- LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z) - LogiGAN: Learning Logical Reasoning via Adversarial Pre-training [58.11043285534766]
本稿では,言語モデルの論理的推論能力を向上させるために,教師なしの対人事前学習フレームワークLogiGANを提案する。
人間の学習におけるリフレクティブ思考の促進効果に着想を得て,逆生成検証アーキテクチャを用いて学習思考過程をシミュレートする。
LogiGANで事前トレーニングされたベースモデルと大規模言語モデルの両方で、12のデータセットで明らかなパフォーマンス改善が示されている。
論文 参考訳(メタデータ) (2022-05-18T08:46:49Z) - AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。
私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。
私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文 参考訳(メタデータ) (2020-04-30T11:08:49Z) - Evaluating Logical Generalization in Graph Neural Networks [59.70452462833374]
グラフニューラルネットワーク(GNN)を用いた論理一般化の課題について検討する。
ベンチマークスイートであるGraphLogでは、学習アルゴリズムが異なる合成論理でルール誘導を実行する必要がある。
モデルが一般化し適応する能力は、トレーニング中に遭遇する論理規則の多様性によって強く決定される。
論文 参考訳(メタデータ) (2020-03-14T05:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。