論文の概要: Spoken Language Intelligence of Large Language Models for Language
Learning
- arxiv url: http://arxiv.org/abs/2308.14536v1
- Date: Mon, 28 Aug 2023 12:47:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 14:08:37.752696
- Title: Spoken Language Intelligence of Large Language Models for Language
Learning
- Title(参考訳): 言語学習のための大規模言語モデルの音声言語インテリジェンス
- Authors: Linkai Peng, Baorian Nuchged and Yingming Gao
- Abstract要約: 教育分野における大規模言語モデル(LLM)の有効性を評価することに注力する。
上記のシナリオにおけるLLMの有効性を評価するために,新しい複数選択質問データセットを提案する。
また,ゼロショット法や少数ショット法など,様々なプロンプト技術の影響についても検討する。
異なる大きさのモデルは、音韻学、音韻学、第二言語習得の概念をよく理解しているが、実世界の問題に対する推論には限界がある。
- 参考スコア(独自算出の注目度): 3.5924382852350902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: People have long hoped for a conversational system that can assist in
real-life situations, and recent progress on large language models (LLMs) is
bringing this idea closer to reality. While LLMs are often impressive in
performance, their efficacy in real-world scenarios that demand expert
knowledge remains unclear. LLMs are believed to hold the most potential and
value in education, especially in the development of Artificial intelligence
(AI) based virtual teachers capable of facilitating language learning. Our
focus is centered on evaluating the efficacy of LLMs in the realm of education,
specifically in the areas of spoken language learning which encompass
phonetics, phonology, and second language acquisition. We introduce a new
multiple-choice question dataset to evaluate the effectiveness of LLMs in the
aforementioned scenarios, including understanding and application of spoken
language knowledge. In addition, we investigate the influence of various
prompting techniques such as zero- and few-shot method (prepending the question
with question-answer exemplars), chain-of-thought (CoT, think step-by-step),
in-domain exampler and external tools (Google, Wikipedia). We conducted
large-scale evaluation on popular LLMs (20 distinct models) using these
methods. We achieved significant performance improvements compared to the
zero-shot baseline in the practical questions reasoning (GPT-3.5, 49.1% ->
63.1%; LLaMA2-70B-Chat, 42.2% -> 48.6%). We found that models of different
sizes have good understanding of concepts in phonetics, phonology, and second
language acquisition, but show limitations in reasoning for real-world
problems. Additionally, we also explore preliminary findings on conversational
communication.
- Abstract(参考訳): 人々は長い間、現実の状況を支援する会話システムに期待しており、近年の大規模言語モデル(LLM)の進歩により、このアイデアは現実に近づきつつある。
LLMは性能に優れることが多いが、専門家の知識を必要とする現実のシナリオにおける有効性は未だ不明である。
LLMは、特に人工知能(AI)ベースの仮想教師の開発において、教育において最も可能性と価値を持っていると考えられている。
本研究の目的は,音韻学,音韻学,第二言語習得を包含する音声言語学習の分野において,教育分野におけるllmの有効性を評価することである。
本稿では,言語知識の理解と応用を含む,上記のシナリオにおけるLLMの有効性を評価するための,新しい複数選択質問データセットを提案する。
さらに,ゼロショットやマイナショット方式(質問者による質問の前処理),チェーン・オブ・マインド(cot,think-by-step,in-domain exampler,外部ツール(google,wikipedia)など,さまざまなプロンプト手法の影響について検討した。
これらの手法を用いてLLM(20種類の異なるモデル)の大規模評価を行った。
GPT-3.5, 49.1% -> 63.1%, LLaMA2-70B-Chat, 42.2% -> 48.6%) におけるゼロショットベースラインと比較して, 大幅な性能向上を実現した。
音韻学,音韻学,第二言語習得における概念の理解は異なるが,実世界の問題に対する推論には限界があることがわかった。
さらに,会話コミュニケーションに関する予備的な知見についても検討する。
関連論文リスト
- Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Teaching LLMs to Abstain across Languages via Multilingual Feedback [40.84205285309612]
多言語フィードバックは,多様な言語,文化,コミュニティ間の知識ギャップを識別する上で有効であることを示す。
大規模な実験により、多言語フィードバックアプローチは、様々な強いベースラインよりも優れていることが示された。
さらに分析したところ、多言語フィードバックは多言語話者に役立てるための効果的かつ公平な回避戦略であることがわかった。
論文 参考訳(メタデータ) (2024-06-22T21:59:12Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Linguistic Intelligence in Large Language Models for Telecommunications [5.06945923921948]
自然言語処理(NLP)分野において,Large Language Models (LLMs) が大きな進歩を遂げている。
本研究は,電気通信分野におけるLLMの知識と理解能力を評価することを目的とする。
評価の結果,ゼロショットLLMは現状の細調整モデルに匹敵する性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-02-24T14:01:07Z) - Empowering Language Models with Active Inquiry for Deeper Understanding [31.11672018840381]
対話型エンゲージメントを備えた大規模言語モデルを実現するために設計されたLaMAI(Language Model with Active Inquiry)を紹介する。
LaMAIは、アクティブな学習技術を使用して、最も有意義な質問を提起し、動的双方向対話を育む。
様々な複雑なデータセットにわたる実証研究は、LaMAIの有効性を実証している。
論文 参考訳(メタデータ) (2024-02-06T05:24:16Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Establishing Vocabulary Tests as a Benchmark for Evaluating Large
Language Models [2.7013338932521416]
我々は,大言語モデル(LLM)の性能を評価する貴重なツールとして,語彙テストの復活を提唱する。
2つの言語にまたがる2つの語彙テスト形式を用いて7つのLSMを評価し,その語彙的知識の驚くべきギャップを明らかにする。
論文 参考訳(メタデータ) (2023-10-23T08:45:12Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - A Survey of Knowledge Enhanced Pre-trained Language Models [78.56931125512295]
我々は、知識強化事前学習言語モデル(KE-PLMs)の包括的なレビューを行う。
NLUでは、言語知識、テキスト知識、知識グラフ(KG)、ルール知識の4つのカテゴリに分類する。
NLGのKE-PLMは、KGベースと検索ベースに分類される。
論文 参考訳(メタデータ) (2022-11-11T04:29:02Z) - Shortcut Learning of Large Language Models in Natural Language
Understanding [119.45683008451698]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。
予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。
これは、その一般化性と敵対的堅牢性に大きな影響を与えている。
論文 参考訳(メタデータ) (2022-08-25T03:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。