Fugu-MT 論文翻訳(概要): Not All Large Language Models (LLMs) Succumb to the "Reversal Curse": A Comparative Study of Deductive Logical Reasoning in BERT and GPT Models

論文の概要: Not All Large Language Models (LLMs) Succumb to the "Reversal Curse": A Comparative Study of Deductive Logical Reasoning in BERT and GPT Models

arxiv url: http://arxiv.org/abs/2312.03633v1
Date: Wed, 6 Dec 2023 17:29:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-07 14:13:26.381191
Title: Not All Large Language Models (LLMs) Succumb to the "Reversal Curse": A Comparative Study of Deductive Logical Reasoning in BERT and GPT Models
Title（参考訳）: 全大言語モデル(LLM)が「逆曲線」に収まるわけではない:BERTモデルとGPTモデルにおける推論論理的推論の比較
Authors: Jingye Yang, Da Wu, Kai Wang
Abstract要約: 逆カース(Reversal Curse)とは、自動回帰デコーダの大言語モデル(LLM)が"B is A"を学習できないシナリオを指す。これにより、知識グラフの構築など、ある種の一般的なタスクにGPTモデルを使用することで、赤旗を掲げる。そこで本研究では,両方向性 LLM であるBERT について検討し,逆行性呪いに対する免疫性が確認された。
参考スコア（独自算出の注目度）: 4.090570781942863
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The "Reversal Curse" refers to the scenario where auto-regressive decoder large language models (LLMs), such as ChatGPT, trained on "A is B" fail to learn "B is A", demonstrating a basic failure of logical deduction. This raises a red flag in the use of GPT models for certain general tasks such as constructing knowledge graphs, considering their adherence to this symmetric principle. In our study, we examined a bidirectional LLM, BERT, and found that it is immune to the reversal curse. Driven by ongoing efforts to construct biomedical knowledge graphs with LLMs, we also embarked on evaluating more complex but essential deductive reasoning capabilities. This process included first training encoder and decoder language models to master the intersection ($\cap$) and union ($\cup$) operations on two sets and then moving on to assess their capability to infer different combinations of union ($\cup$) and intersection ($\cap$) operations on three newly created sets. The findings showed that while both encoder and decoder language models, trained for tasks involving two sets (union/intersection), were proficient in such scenarios, they encountered difficulties when dealing with operations that included three sets (various combinations of union and intersection). Our research highlights the distinct characteristics of encoder and decoder models in simple and complex logical reasoning. In practice, the choice between BERT and GPT should be guided by the specific requirements and nature of the task at hand, leveraging their respective strengths in bidirectional context comprehension and sequence prediction.
Abstract（参考訳）: 逆カース(Reversal Curse)とは、"A is B"で訓練されたChatGPTのような自動回帰デコーダ(LLM)が"B is A"を学習できず、論理的推論の基本的な失敗を示すシナリオを指す。このことは、知識グラフの構成のようなある種の一般的なタスクにGPTモデルを使用する際に、この対称原理に固執することを考慮して赤旗を掲げる。そこで本研究では,両方向性 LLM であるBERT について検討し,逆行性呪いに対する免疫性が確認された。 LLMを用いて生物医学知識グラフを構築するための継続的な取り組みによって、我々はさらに複雑だが本質的な推論能力の評価にも取り組みました。このプロセスには、最初のトレーニングエンコーダとデコーダ言語モデルが含まれており、2つのセットの交差点($\cap$)とユニオン($\cup$)の操作をマスターし、3つの新しく作成されたセットのユニオン($\cup$)と交差点($\cap$)の異なる組み合わせを推測する能力の評価を行う。その結果、エンコーダとデコーダの両方の言語モデルでは、2つのセット(結合/相互作用)を含むタスクを訓練する一方で、3つのセット(結合と交叉のさまざまな組み合わせ)を含む操作を扱う場合の困難さに遭遇した。本研究では,エンコーダモデルとデコーダモデルの異なる特徴を,単純かつ複雑な論理推論で強調する。実際には、BERT と GPT の選択は、そのタスクの具体的な要件と性質によって導かれるべきであり、それぞれの強みを双方向のコンテキスト理解とシーケンス予測に活用する。

関連論文リスト

NeuralNexus at BEA 2025 Shared Task: Retrieval-Augmented Prompting for Mistake Identification in AI Tutors [0.12499537119440242]
本稿では, BEA 2025共有タスクにおけるトラック1のミステイク同定システムについて述べる。この課題は、教師の反応が学生の推論における誤りを正しく識別するかどうかを評価することである。我々のシステムは意味的に類似した例を検索し、構造化されたプロンプトを構築し、生成可能な予測をスキーマ誘導解析する。
論文参考訳（メタデータ） (2025-06-12T12:11:56Z)
Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文参考訳（メタデータ） (2025-02-21T00:48:32Z)
Bidirectional Awareness Induction in Autoregressive Seq2Seq Models [47.82947878753809]
双方向認識誘導(BAI)は、ネットワーク内の要素のサブセットであるPivotsを利用して、自己回帰的制約を破ることなく双方向学習を行う訓練手法である。特に,イメージキャプションでは2.4CIDEr,ニューラルマシン翻訳では4.96BLEU,テキスト要約では1.16ROUGEの増加が確認された。
論文参考訳（メタデータ） (2024-08-25T23:46:35Z)
Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
大規模言語モデル(LLM)に基づくKG上の複雑な推論スキーマを提案する。任意の一階論理クエリを二分木分解により拡張し、LLMの推論能力を刺激する。広く使われているデータセットに対する実験では、LACTは高度な手法よりも大幅に改善されている(平均+5.5% MRRスコア)。
論文参考訳（メタデータ） (2024-05-02T18:12:08Z)
Deep Natural Language Feature Learning for Interpretable Prediction [1.6114012813668932]
本稿では,メインの複雑なタスクを仲介しやすいサブタスクの集合に分解する手法を提案する。本手法では,これらの質問に対する回答からなるベクトルで各例を表現できる。我々は,学生のオープンエンド数学試験に対する回答の不整合性の検出と,気候変動と農業学に関する科学的論文の体系的な文献レビューのための要約のスクリーニングという,2つのまったく異なるタスクにこの手法を適用した。
論文参考訳（メタデータ） (2023-11-09T21:43:27Z)
LINC: A Neurosymbolic Approach for Logical Reasoning by Combining Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文参考訳（メタデータ） (2023-10-23T17:58:40Z)
Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文参考訳（メタデータ） (2023-05-24T06:41:09Z)
Query Structure Modeling for Inductive Logical Reasoning Over Knowledge Graphs [67.043747188954]
KGに対する帰納的論理的推論のための構造モデル付きテキスト符号化フレームワークを提案する。線形化されたクエリ構造とエンティティを、事前訓練された言語モデルを使ってエンコードして、回答を見つける。 2つの帰納的論理推論データセットと3つの帰納的推論データセットについて実験を行った。
論文参考訳（メタデータ） (2023-05-23T01:25:29Z)
Generalization on the Unseen, Logic Reasoning and Degree Curriculum [25.7378861650474]
本稿では,論理的(ブール的)関数の学習について,未確認(GOTU)設定の一般化に着目して考察する。我々は,(S)GDで訓練されたネットワークアーキテクチャがGOTUの下でどのように機能するかを検討する。具体的には、より高次基底要素に最小のフーリエ質量を持つトレーニングデータの補間子を意味する。
論文参考訳（メタデータ） (2023-01-30T17:44:05Z)
Language Models of Code are Few-Shot Commonsense Learners [106.1531522893209]
自然言語入力が与えられた場合、目標はイベントや推論グラフなどのグラフを生成することだ。既存のアプローチは、出力グラフをノードとエッジのフラットリストとしてシリアライズする。コード生成タスクとして構造化コモンセンス推論タスクをフレーム化する場合、事前学習されたコードLMは自然言語のLMよりも構造化コモンセンス推論タスクの方が優れていることを示す。
論文参考訳（メタデータ） (2022-10-13T16:09:36Z)
elBERto: Self-supervised Commonsense Learning for Question Answering [131.51059870970616]
本稿では、市販QAモデルアーキテクチャと互換性のあるコモンセンスフレームワークの自己教師型双方向表現学習を提案する。このフレームワークは5つの自己教師型タスクから構成されており、リッチコモンセンスを含むコンテキストから追加のトレーニング信号を完全に活用するようモデルに強制する。 elBERtoは、単純な語彙的類似性比較が役に立たないような、アウト・オブ・パラグラフや非エフェクトな問題に対して、大幅に改善されている。
論文参考訳（メタデータ） (2022-03-17T16:23:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。