論文の概要: OPT-R: Exploring the Role of Explanations in Finetuning and Prompting
for Reasoning Skills of Large Language Models
- arxiv url: http://arxiv.org/abs/2305.12001v2
- Date: Tue, 24 Oct 2023 13:38:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 00:52:41.837893
- Title: OPT-R: Exploring the Role of Explanations in Finetuning and Prompting
for Reasoning Skills of Large Language Models
- Title(参考訳): opt-r: 大きな言語モデルの推論スキルの微調整と促進における説明の役割を探る
- Authors: Badr AlKhamissi, Siddharth Verma, Ping Yu, Zhijing Jin, Asli
Celikyilmaz, Mona Diab
- Abstract要約: 我々はLarge Language Models(LLMs)の推論能力について徹底的な調査を行っている。
本研究は,Open Pretrained Transformers (OPT) の3つの異なるサイズを微調整する。
次に、SUPER-NATURALINSTRUCTIONSベンチマークから引き出された57の領域外タスクについて、全てのモデルを評価する。
- 参考スコア(独自算出の注目度): 48.412284346337344
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we conduct a thorough investigation into the reasoning
capabilities of Large Language Models (LLMs), focusing specifically on the Open
Pretrained Transformers (OPT) models as a representative of such models. Our
study entails finetuning three different sizes of OPT on a carefully curated
reasoning corpus, resulting in two sets of finetuned models: OPT-R, finetuned
without explanations, and OPT-RE, finetuned with explanations. We then evaluate
all models on 57 out-of-domain tasks drawn from the SUPER-NATURALINSTRUCTIONS
benchmark, covering 26 distinct reasoning skills, utilizing three prompting
techniques. Through a comprehensive grid of 27 configurations and 6,156 test
evaluations, we investigate the dimensions of finetuning, prompting, and scale
to understand the role of explanations on different reasoning skills. Our
findings reveal that having explanations in the fewshot exemplar has no
significant impact on the model's performance when the model is finetuned,
while positively affecting the non-finetuned counterpart. Moreover, we observe
a slight yet consistent increase in classification accuracy as we incorporate
explanations during prompting and finetuning, respectively. Finally, we offer
insights on which skills benefit the most from incorporating explanations
during finetuning and prompting, such as Numerical (+20.4%) and Analogical
(+13.9%) reasoning, as well as skills that exhibit negligible or negative
effects.
- Abstract(参考訳): 本稿では,大規模言語モデル (llm) の推論能力について,特にopen pretrained transformers (opt) モデルを代表として徹底的に検討する。
そこで本研究では, OPT-Rモデル, OPT-REモデル, OPT-REモデルの3つのモデルについて検討した。
次に,SUPER-NATURALINSTRUCTIONSベンチマークから抽出した57の領域外タスクに対して,26の異なる推論スキルを網羅し,3つのプロンプト技術を用いて全てのモデルを評価する。
本研究では,27の構成と6,156の試験評価を網羅的に網羅し,様々な推論スキルにおける説明の役割を理解するために,微調整,プロンプト,スケールの寸法を調査した。
この結果から, モデルが微調整された場合, モデルの性能に有意な影響を与えず, 非微調整されたモデルに肯定的な影響を及ぼすことが明らかとなった。
さらに,シグネチャリングと微調整の際の説明を取り入れた分類精度が,わずかながら一貫した増加を観察した。
最後に、数値(+20.4%)と類推(+13.9%)の推論や、無視可能なあるいは否定的な効果を示すスキルなど、微調整やプロンプトの際の説明を取り入れることで、どのスキルが最も有益かを洞察する。
関連論文リスト
- Tell Me Why: Explainable Public Health Fact-Checking with Large Language Models [21.280725490520798]
本稿では,大規模言語モデルによる公衆衛生クレームの検証に焦点をあてる。
各種オープンおよびクローズドソースモデルにおける0/fwショットプロンプトとパラメータ効率の微調整の有効性について検討する。
論文 参考訳(メタデータ) (2024-05-15T15:49:06Z) - Show Me How It's Done: The Role of Explanations in Fine-Tuning Language
Models [0.45060992929802207]
言語モデルの性能を向上させるために,説明付き微調整を用いることによる重要な利点を示す。
私たちは、6000万のパラメータしか持たない小さな言語モデルでさえ、このアプローチからかなり恩恵を受けていることに気付きました。
論文 参考訳(メタデータ) (2024-02-12T10:11:50Z) - Large language models for aspect-based sentiment analysis [0.0]
GPT-4 と GPT-3.5 の性能をゼロショット, 少ないショット, 微調整で評価した。
微調整 GPT-3.5 は、共同アスペクト項抽出と極性分類タスクにおいて最先端の F1 スコア 83.8 を達成する。
論文 参考訳(メタデータ) (2023-10-27T10:03:21Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Explanations from Large Language Models Make Small Reasoners Better [61.991772773700006]
提案手法は, 異なる設定において, 微調整ベースラインを連続的に, 著しく向上させることができることを示す。
副次的な利点として、人間の評価は、その予測を正当化するために高品質な説明を生成することができることを示す。
論文 参考訳(メタデータ) (2022-10-13T04:50:02Z) - The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-06T17:57:58Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - On the Challenges of Evaluating Compositional Explanations in Multi-Hop
Inference: Relevance, Completeness, and Expert Ratings [1.7243339961137647]
構成的な説明を構築するには、2つ以上の事実を組み合わせる必要がある。
本研究では,これらの評価を,事実の関連性およびモデル生成説明の完全性の観点から,モデル性能を著しく過小評価する。
我々は、異なる方法論(世代、ランク、スキーマ)に基づいて3つの強力なモデルを構築し、専門家による評価が説明品質のより良い見積もりを提供する一方で、オリジナルの(ゴールド)と専門家による自動評価の両方が、完全な手作業による専門家の判断と比較した場合、パフォーマンスを最大36%下回っていることを実証的に示す。
論文 参考訳(メタデータ) (2021-09-07T21:00:05Z) - The Struggles of Feature-Based Explanations: Shapley Values vs. Minimal
Sufficient Subsets [61.66584140190247]
機能に基づく説明は、自明なモデルでも問題を引き起こすことを示す。
そこで本研究では,2つの一般的な説明書クラスであるシェープリー説明書と十分最小限の部分集合説明書が,基本的に異なる基底的説明書のタイプをターゲットにしていることを示す。
論文 参考訳(メタデータ) (2020-09-23T09:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。