論文の概要: Large Language Models Are Also Good Prototypical Commonsense Reasoners
- arxiv url: http://arxiv.org/abs/2309.13165v1
- Date: Fri, 22 Sep 2023 20:07:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 21:53:25.571982
- Title: Large Language Models Are Also Good Prototypical Commonsense Reasoners
- Title(参考訳): 大きな言語モデルもプロトタイプのCommonsense Reasonerである
- Authors: Chenin Li, Qianglong Chen, Yin Zhang, Yifei Zhang, Hongxiang Yao
- Abstract要約: 従来の微調整アプローチはリソース集約的であり、モデルの一般化能力を損なう可能性がある。
我々は、調整されたタスクのための大規模モデルの出力からインスピレーションを受け、半自動で新しいプロンプトのセットを開発した。
より優れた設計のプロンプトによって、ProtoQAのリーダーボードで新しい最先端(SOTA)を達成することができます。
- 参考スコア(独自算出の注目度): 11.108562540123387
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Commonsense reasoning is a pivotal skill for large language models, yet it
presents persistent challenges in specific tasks requiring this competence.
Traditional fine-tuning approaches can be resource-intensive and potentially
compromise a model's generalization capacity. Furthermore, state-of-the-art
language models like GPT-3.5 and Claude are primarily accessible through API
calls, which makes fine-tuning models challenging. To address these challenges,
we draw inspiration from the outputs of large models for tailored tasks and
semi-automatically developed a set of novel prompts from several perspectives,
including task-relevance, supportive evidence generation (e.g. chain-of-thought
and knowledge), diverse path decoding to aid the model. Experimental results on
ProtoQA dataset demonstrate that with better designed prompts we can achieve
the new state-of-art(SOTA) on the ProtoQA leaderboard, improving the Max
Answer@1 score by 8%, Max Incorrect@1 score by 4% (breakthrough 50% for the
first time) compared to the previous SOTA model and achieved an improvement on
StrategyQA and CommonsenseQA2.0 (3% and 1%, respectively). Furthermore, with
the generated Chain-of-Thought and knowledge, we can improve the
interpretability of the model while also surpassing the previous SOTA models.
We hope that our work can provide insight for the NLP community to develop
better prompts and explore the potential of large language models for more
complex reasoning tasks.
- Abstract(参考訳): コモンセンス推論は、大きな言語モデルにとって重要なスキルであるが、この能力を必要とする特定のタスクに永続的な課題をもたらす。
従来の微調整アプローチはリソース集約的であり、モデルの一般化能力を損なう可能性がある。
さらに、gpt-3.5やclaudeのような最先端の言語モデルはapi呼び出しを通じてアクセス可能であるため、微調整モデルが困難になる。
これらの課題に対処するため、我々は、調整されたタスクのための大規模モデルのアウトプットからインスピレーションを得て、半自動的に、タスク関連、支援的な証拠生成(例えば、思考の連鎖と知識)、モデルを支援するための多様なパスデコードなど、いくつかの視点から、新しいプロンプトセットを開発した。
ProtoQAデータセットの実験結果によると、設計上のプロンプトにより、ProtoQAのリーダーボード上で新しい最先端(SOTA)を達成でき、Max Answer@1スコアを8%改善し、Max Incorrect@1スコアを以前のSOTAモデルと比較して4%改善(初めて50%突破)し、StrategyQAとCommonsenseQA2.0(それぞれ3%と1%)の改善を実現した。
さらに、生成する思考の連鎖と知識により、モデルの解釈性を改善しつつ、従来のsomaモデルを超えることができる。
我々は、NLPコミュニティがより優れたプロンプトを開発し、より複雑な推論タスクのための大きな言語モデルの可能性を探るための洞察を提供することができることを願っている。
関連論文リスト
- Eureka: Evaluating and Understanding Large Foundation Models [23.020996995362104]
Eurekaは、シングルスコアのレポートやランキングを超えて、大規模な基盤モデルの評価を標準化するためのオープンソースのフレームワークです。
我々は、12の最先端モデルを分析し、失敗理解とモデル比較に関する詳細な洞察を提供する。
論文 参考訳(メタデータ) (2024-09-13T18:01:49Z) - INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large
Language Models [39.46610170563634]
INSTRUCTEVALは、命令調整された大規模言語モデルのために特別に設計された、より包括的な評価スイートである。
我々は,事前学習の基礎,指導指導データ,訓練方法など,モデル性能に影響を与える諸要因を総合的に分析する。
その結果, モデル性能のスケーリングにおいて, 命令データの品質が最も重要な要因であることが判明した。
論文 参考訳(メタデータ) (2023-06-07T20:12:29Z) - Chain-of-Thought Hub: A Continuous Effort to Measure Large Language
Models' Reasoning Performance [35.38549845444575]
Chain-of-Thought Hubは、大規模な言語モデルの多段階推論機能に関するオープンソースの評価スイートである。
提案するChain-of-Thought Hubは,大規模言語モデルの多段階推論機能に関するオープンソース評価スイートである。
論文 参考訳(メタデータ) (2023-05-26T23:46:42Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。
Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。
最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文 参考訳(メタデータ) (2022-07-15T11:39:37Z) - ANNA: Enhanced Language Representation for Question Answering [5.713808202873983]
事前学習モデルでは,各アプローチが個別にパフォーマンスにどう影響するかを示し,そのアプローチが共同で検討されている。
本稿では,事前学習タスクの拡張と,近隣のトークンにもっと参加して,事前学習言語モデリングのコンテキストの豊かさを把握できる新しい近隣認識機構を提案する。
我々の最良のモデルは、SQuAD 1.1上で95.7% F1と90.6% EMの新たな最先端結果を実現し、RoBERTa、ALBERT、ELECTRA、XLNetといった既存のトレーニング済み言語モデルよりも優れている。
論文 参考訳(メタデータ) (2022-03-28T05:26:52Z) - ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language
Understanding and Generation [25.430130072811075]
大規模知識強化モデルの事前学習のための統合フレームワーク ERNIE 3.0 を提案する。
自動回帰ネットワークと自動エンコードネットワークを融合することで、トレーニングされたモデルを自然言語理解と生成タスクの両方に容易に適合させることができる。
我々は,テキストと大規模知識グラフからなる4TBコーパス上で,100億のパラメータでモデルを訓練した。
論文 参考訳(メタデータ) (2021-07-05T16:54:59Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。