Fugu-MT 論文翻訳(概要): A Systematic Evaluation of Large Language Models on Out-of-Distribution Logical Reasoning Tasks

論文の概要: A Systematic Evaluation of Large Language Models on Out-of-Distribution Logical Reasoning Tasks

arxiv url: http://arxiv.org/abs/2310.09430v2
Date: Tue, 17 Oct 2023 02:08:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 10:57:52.146671
Title: A Systematic Evaluation of Large Language Models on Out-of-Distribution Logical Reasoning Tasks
Title（参考訳）: 分布外論理推論課題における大規模言語モデルの体系的評価
Authors: Qiming Bao, Gael Gendron, Alex Yuxuan Peng, Wanjun Zhong, Neset Tan, Yang Chen, Michael Witbrock, Jiamou Liu
Abstract要約: 我々は「ReClor-plus」、「LogiQA-plus」、「LogiQAv2-plus」という3つの新しい論理推論データセットを提案する。単純なトリックが言語モデルの性能を著しく損なうことを示す。そこで本研究では,大規模学習セットの摂動によるタスク変動の導入により,論理的推論タスクにおけるモデルの一般化とロバスト性を大幅に向上させることができることを示す。
参考スコア（独自算出の注目度）: 26.594772352365553
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large language models (LLMs), such as GPT-3.5 and GPT-4, have greatly advanced the performance of artificial systems on various natural language processing tasks to human-like levels. However, their generalisation and robustness to perform logical reasoning remain under-evaluated. To probe this ability, we propose three new logical reasoning datasets named "ReClor-plus", "LogiQA-plus" and "LogiQAv2-plus", each featuring three subsets: the first with randomly shuffled options, the second with the correct choices replaced by "none of the other options are correct", and a combination of the previous two subsets. We carry out experiments on these datasets with both discriminative and generative LLMs and show that these simple tricks greatly hinder the performance of the language models. Despite their superior performance on the original publicly available datasets, we find that all models struggle to answer our newly constructed datasets. We show that introducing task variations by perturbing a sizable training set can markedly improve the model's generalisation and robustness in logical reasoning tasks. Moreover, applying logic-driven data augmentation for fine-tuning, combined with prompting can enhance the generalisation performance of both discriminative large language models and generative large language models. These results offer insights into assessing and improving the generalisation and robustness of large language models for logical reasoning tasks. We make our source code and data publicly available \url{https://github.com/Strong-AI-Lab/Logical-and-abstract-reasoning}.
Abstract（参考訳）: GPT-3.5やGPT-4のような大規模言語モデル(LLM)は、様々な自然言語処理タスクにおける人工システムの性能を大幅に向上させた。しかし、論理的な推論を行うための一般化と堅牢性は未評価のままである。この能力を探索するために,まずランダムにシャッフルされた選択肢の1つ,第2の選択肢が正しい選択肢の1つに置き換わる「ReClor-plus」「LogiQA-plus」「LogiQAv2-plus」という3つの新しい論理的推論データセットと,それ以前の2つのサブセットの組み合わせを提案する。識別と生成の両方でこれらのデータセットの実験を行い、これらの単純なトリックが言語モデルの性能を著しく損なうことを示す。オリジナルの公開データセットでのパフォーマンスは優れていますが、私たちはすべてのモデルが新しく構築されたデータセットに答えるのに苦労しています。本研究では,相当量のトレーニング集合を摂動させることで,論理推論タスクにおけるモデルの一般化とロバスト性が著しく向上することを示す。さらに、微調整に論理駆動データ拡張を適用すると、プロンプトと組み合わせることで、判別型大言語モデルと生成型大言語モデルの双方の一般化性能が向上する。これらの結果は、論理推論タスクのための大規模言語モデルの一般化と堅牢性の評価と改善に関する洞察を提供する。ソースコードとデータは \url{https://github.com/strong-ai-lab/logical-and-abstract-reasoning} で公開しています。

関連論文リスト

Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning [54.65050470296886]
本研究では,跳躍を自動的に検出し,中間的推論ステップを欠くことを目的としたCoT Thought Leap Bridge Taskを提案する。ブリッジされたデータセットに微調整されたモデルが、元のデータセットでトレーニングされたモデルよりも一貫して優れていることを示す。提案手法は, 蒸留データを効果的に向上させ, 強化学習の出発点として優れたものを提供する。
論文参考訳（メタデータ） (2025-05-20T17:59:31Z)
Embedding Domain-Specific Knowledge from LLMs into the Feature Engineering Pipeline [0.0]
本稿では,Large Language Models (LLMs) を,データセットに知識を加えるための初期機能構築ステップとして用いることを提案する。その結果、進化はより速く収束し、計算資源を節約できることがわかった。
論文参考訳（メタデータ） (2025-03-27T04:48:58Z)
AutoLogi: Automated Generation of Logic Puzzles for Evaluating Reasoning Abilities of Large Language Models [86.83875864328984]
本稿では,オープンエンド論理パズルを自動合成する手法を提案し,それをバイリンガルベンチマークであるAutoLogiの開発に利用する。提案手法は,プログラムベースの検証と制御可能な難易度を特徴とし,モデルの推論能力をよりよく区別する信頼性の高い評価を可能にする。
論文参考訳（メタデータ） (2025-02-24T07:02:31Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Transformer-based Language Models for Reasoning in the Description Logic ALCQ [2.8210912543324658]
自然言語のデータセット DELTA$_D$ を表現型記述論理言語 $mathcalALCQ$ を使って構築する。教師付き細調整DeBERTaモデルと2つの大言語モデルの論理的推論能力について検討する。データセットに微調整されたDeBERTaベースのモデルが、詳細チェックタスクをマスターできることを示します。
論文参考訳（メタデータ） (2024-10-12T18:25:34Z)
Improving Language Model Reasoning with Self-motivated Learning [60.779625789039486]
textitSelfをモチベーションとする学習フレームワークは、モデル自体をモチベーションとして、既存のデータセットで合理性を自動的に生成する。我々は,有理数の品質を評価するためにランク付き報酬モデルを訓練し,強化学習による推論の性能向上を図る。
論文参考訳（メタデータ） (2024-04-10T14:05:44Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
Dynamics of Instruction Tuning: Each Ability of Large Language Models Has Its Own Growth Pace [21.015261553612643]
10の能力にまたがる40k以上のデータセットを提示し、7bから33bのパラメータを持つ命令調整モデルについて検討する。 i) モデル全体の性能がデータとパラメータスケールに結びついているにもかかわらず、個々の能力はこれらの要因に対して異なる感性を持っている。人為的なデータはGPT-4の合成データより効率が良く、容積の増加とともにモデル性能を常に向上させることができる。
論文参考訳（メタデータ） (2023-10-30T15:37:10Z)
Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文参考訳（メタデータ） (2023-10-09T13:29:37Z)
Abstract Meaning Representation-Based Logic-Driven Data Augmentation for Logical Reasoning [27.224364543134094]
本稿では,論理駆動型データ拡張手法AMR-LDAを提案する。 AMR-LDAは元のテキストを抽象的意味表現(AMR)グラフに変換する。修正されたAMRグラフは、拡張データを生成するためにテキストに変換される。
論文参考訳（メタデータ） (2023-05-21T23:16:26Z)
In all LikelihoodS: How to Reliably Select Pseudo-Labeled Data for Self-Training in Semi-Supervised Learning [0.0]
自己学習は、半教師あり学習においてシンプルだが効果的な方法である。本稿では,PSSをより堅牢にモデル化する手法を提案する。結果は、特にロバスト性 w.r.t. モデル選択がかなりの精度の向上をもたらすことを示唆している。
論文参考訳（メタデータ） (2023-03-02T10:00:37Z)
Improving Commonsense Causal Reasoning by Adversarial Training and Data Augmentation [14.92157586545743]
本稿では,因果推論の領域において,モデルをより堅牢にするための多くの手法を提案する。少数の追加生成データポイントがなくても、パフォーマンスと両方のデータセットの統計的に有意な改善を示します。
論文参考訳（メタデータ） (2021-01-13T09:55:29Z)
Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文参考訳（メタデータ） (2020-12-29T23:43:16Z)
ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning [85.33459673197149]
標準化された大学院受験試験から抽出した論理的推論(ReClor)を必要とする新たな読解データセットを提案する。本稿では、偏りのあるデータポイントを識別し、それらをEASY集合と残りをHARD集合に分離することを提案する。実験結果によると、最先端のモデルでは、データセットに含まれるバイアスをEASYセット上で高精度にキャプチャする能力に優れていた。しかし、彼らはランダムな推測に近い性能のHARDセットに苦慮しており、現在のモデルの論理的推論能力を本質的に向上させるためには、より多くの研究が必要であることを示している。
論文参考訳（メタデータ） (2020-02-11T11:54:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。