論文の概要: Roles of Scaling and Instruction Tuning in Language Perception: Model
vs. Human Attention
- arxiv url: http://arxiv.org/abs/2310.19084v1
- Date: Sun, 29 Oct 2023 17:16:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 14:25:44.775038
- Title: Roles of Scaling and Instruction Tuning in Language Perception: Model
vs. Human Attention
- Title(参考訳): 言語知覚におけるスケーリングとインストラクションチューニングの役割:モデルと人間の注意
- Authors: Changjiang Gao, Shujian Huang, Jixing Li and Jiajun Chen
- Abstract要約: 本研究は,複数の大規模言語モデル (LLM) を異なる大きさで自己意識的に比較し,言語知覚に対するスケーリングと指導指導の効果を評価する。
その結果,スケーリングは人間の類似性を向上し,簡単なパターン依存を減らし,効果的な注意力を高める一方で,命令チューニングは行わないことがわかった。
また、現在のLLMは、注目されているネイティブスピーカーよりも、常に非ネイティブに近づき、全てのモデルの準最適言語知覚が示唆されている。
- 参考スコア(独自算出の注目度): 58.817405319722596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large language models (LLMs) have revealed strong abilities to
understand natural language. Since most of them share the same basic structure,
i.e. the transformer block, possible contributors to their success in the
training process are scaling and instruction tuning. However, how these factors
affect the models' language perception is unclear. This work compares the
self-attention of several existing LLMs (LLaMA, Alpaca and Vicuna) in different
sizes (7B, 13B, 30B, 65B), together with eye saccade, an aspect of human
reading attention, to assess the effect of scaling and instruction tuning on
language perception. Results show that scaling enhances the human resemblance
and improves the effective attention by reducing the trivial pattern reliance,
while instruction tuning does not. However, instruction tuning significantly
enhances the models' sensitivity to instructions. We also find that current
LLMs are consistently closer to non-native than native speakers in attention,
suggesting a sub-optimal language perception of all models. Our code and data
used in the analysis is available on GitHub.
- Abstract(参考訳): 最近の大規模言語モデル(LLM)は、自然言語を理解する強力な能力を示している。
それらの多くは同じ基本構造、すなわちトランスフォーマーブロックを共有しているため、トレーニングプロセスの成功への貢献者は、スケーリングとインストラクションチューニングである。
しかし、これらの要因がモデルの言語知覚に与える影響は明らかでない。
本研究は,様々な大きさ (7B, 13B, 30B, 65B) の既存のLLM (LLaMA, Alpaca, Vicuna) の自己注意と, 人間の注意の側面である眼袋とを比較し, 言語知覚に対するスケーリングとチューニングの効果を評価する。
その結果,スケーリングは人間の類似性を向上し,簡単なパターン依存を減らし,効果的な注意力を高める一方で,命令チューニングは行わないことがわかった。
しかし、命令チューニングは命令に対するモデルの感度を大幅に向上させる。
また、現在のllmは、ネイティブスピーカーよりも常に非ネイティブに近いことが分かり、すべてのモデルの最適言語知覚が示唆された。
分析に使用するコードとデータはgithubから入手できます。
関連論文リスト
- SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - Lexicon-Level Contrastive Visual-Grounding Improves Language Modeling [47.7950860342515]
LexiContrastive Grounding (LCG)は、視覚的監督を利用してテキスト表現を改善する言語学習手法である。
LCGは学習効率において標準言語のみのモデルより優れている。
CLIP、GIT、Flamingo、Vokenizationなど、視覚と言語による学習手順を改善する。
論文 参考訳(メタデータ) (2024-03-21T16:52:01Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - InstructAlign: High-and-Low Resource Language Alignment via Continual
Crosslingual Instruction Tuning [66.31509106146605]
命令を調整した大規模言語モデル(LLM)は、様々なタスクや言語で顕著な能力を示している。
しかし、利用可能なデータが不足しているため、表現不足の言語に一般化する能力は限られている。
InstructAlignは、LLMが新しい未知の言語を学習済みの高リソース言語と整列できるようにするために、連続的なクロスリンガル命令チューニングを使用する。
論文 参考訳(メタデータ) (2023-05-23T02:51:34Z) - Counteracts: Testing Stereotypical Representation in Pre-trained
Language Models [4.211128681972148]
我々は,事前学習言語モデル(PLM)の内部ステレオタイプ知識を調べるために,反例を用いている。
我々は,9種類のクローゼスタイルのプロンプトに対して,異なる情報と基本知識で7つのPLMを評価する。
論文 参考訳(メタデータ) (2023-01-11T07:52:59Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。