論文の概要: Does Instruction Tuning Make LLMs More Consistent?
- arxiv url: http://arxiv.org/abs/2404.15206v2
- Date: Tue, 30 Apr 2024 09:25:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 18:39:28.294105
- Title: Does Instruction Tuning Make LLMs More Consistent?
- Title(参考訳): インストラクションチューニングはLLMをより一貫性のあるものにするか?
- Authors: Constanza Fierro, Jiaang Li, Anders Søgaard,
- Abstract要約: 我々は、$textitConsistency$、すなわち、入力の小さな摂動に対する言語モデルの感度への影響を考察する。
10個の命令調整LLaMAモデルと元のLLaMA-7bモデルを比較し、ほぼ全車種がより一貫性を持つことを示す。
- 参考スコア(独自算出の注目度): 44.19143931010489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The purpose of instruction tuning is enabling zero-shot performance, but instruction tuning has also been shown to improve chain-of-thought reasoning and value alignment (Si et al., 2023). Here we consider the impact on $\textit{consistency}$, i.e., the sensitivity of language models to small perturbations in the input. We compare 10 instruction-tuned LLaMA models to the original LLaMA-7b model and show that almost across-the-board they become more consistent, both in terms of their representations and their predictions in zero-shot and downstream tasks. We explain these improvements through mechanistic analyses of factual recall.
- Abstract(参考訳): 命令チューニングの目的は、ゼロショットのパフォーマンスを実現することであるが、命令チューニングはまた、チェーン・オブ・ソート推論と値アライメントを改善することが示されている(Si et al , 2023)。
ここでは、$\textit{consistency}$、すなわち入力の小さな摂動に対する言語モデルの感度への影響について考察する。
10個の命令調整されたLLaMAモデルと元のLLaMA-7bモデルを比較し、その表現とゼロショットタスクとダウンストリームタスクの予測の両方において、ほぼ一貫したものになることを示す。
本稿では,これらの改善について,実リコールの力学解析を通して説明する。
関連論文リスト
- Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - Dancing in Chains: Reconciling Instruction Following and Faithfulness in Language Models [34.13519934563742]
現代言語モデル(LM)は忠実でありながら人間の指示に従う必要があることを示す。
ReSet(Continuousd Self-Instruction Tuning)におけるリジェクションサンプリングを利用した簡易かつ効果的な手法を提案する。
高品質なReSetをトレーニングするほど、より少ないデータ(3倍少ないデータ)が優れた結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2024-07-31T08:05:04Z) - Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。
PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文 参考訳(メタデータ) (2024-02-17T00:09:32Z) - Roles of Scaling and Instruction Tuning in Language Perception: Model
vs. Human Attention [58.817405319722596]
本研究は,複数の大規模言語モデル (LLM) を異なる大きさで自己意識的に比較し,言語知覚に対するスケーリングと指導指導の効果を評価する。
その結果,スケーリングは人間の類似性を向上し,簡単なパターン依存を減らし,効果的な注意力を高める一方で,命令チューニングは行わないことがわかった。
また、現在のLLMは、注目されているネイティブスピーカーよりも、常に非ネイティブに近づき、全てのモデルの準最適言語知覚が示唆されている。
論文 参考訳(メタデータ) (2023-10-29T17:16:40Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Evaluating Instruction-Tuned Large Language Models on Code Comprehension
and Generation [4.310519298899164]
本研究では,4つの代表的コード理解および生成タスクに対して,オープンソースのLLMを10個評価する。
ゼロショット設定では、命令されたLLMはコード理解と生成タスクに非常に競合する。
数ショット設定では,実演例の追加がLLMの性能向上に有効であることが判明した。
論文 参考訳(メタデータ) (2023-08-02T15:54:22Z) - TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-10T08:15:40Z) - Evaluating the Zero-shot Robustness of Instruction-tuned Language Models [23.488398944358643]
新規な(観測されていない)が適切な命令表現を用いることで、モデル性能は一貫して低下することがわかった。
本稿では,ソフトプロンプトの埋め込みパラメータを導入することで,この問題を軽減するための簡単な手法を提案する。
本手法は命令調整モデルのロバスト性を常に改善することを示す。
論文 参考訳(メタデータ) (2023-06-20T03:48:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。