論文の概要: Natural Language Processing RELIES on Linguistics
- arxiv url: http://arxiv.org/abs/2405.05966v2
- Date: Mon, 9 Sep 2024 08:21:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 02:31:55.514621
- Title: Natural Language Processing RELIES on Linguistics
- Title(参考訳): 自然言語処理と言語学
- Authors: Juri Opitz, Shira Wein, Nathan Schneider,
- Abstract要約: 言語学がNLPに寄与する6つの主要な面を包含する頭字語RELIESを論じる。
このリストは徹底的なものではないし、言語学もこれらのテーマの下でのあらゆる努力の主点ではない。
- 参考スコア(独自算出の注目度): 13.142686158720021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have become capable of generating highly fluent text in certain languages, without modules specially designed to capture grammar or semantic coherence. What does this mean for the future of linguistic expertise in NLP? We highlight several aspects in which NLP (still) relies on linguistics, or where linguistic thinking can illuminate new directions. We argue our case around the acronym RELIES that encapsulates six major facets where linguistics contributes to NLP: Resources, Evaluation, Low-resource settings, Interpretability, Explanation, and the Study of language. This list is not exhaustive, nor is linguistics the main point of reference for every effort under these themes; but at a macro level, these facets highlight the enduring importance of studying machine systems vis-\`a-vis systems of human language.
- Abstract(参考訳): 大きな言語モデル(LLM)は、文法や意味的一貫性を捉えるために特別に設計されたモジュールなしで、特定の言語で高度に流動的なテキストを生成することができるようになった。
これはNLPにおける言語学の専門知識の将来にとって何を意味するのか?
我々は,NLPが言語学に依存している,あるいは言語学的思考が新たな方向を照らすことができる,いくつかの側面を強調した。
我々は,言語学がNLPに寄与する6つの主要な側面を包括する頭字語RELIES(Resources, Evaluation, Low-resource settings, Interpretability, Explanation, the Study of Language)について論じる。
このリストは徹底的ではないし、言語学もこれらのテーマの全ての取り組みの参照ポイントではない。しかしマクロレベルでは、これらのファセットは人間の言語の機械システム vis-\`a-vis システムを研究することの持続的重要性を浮き彫りにしている。
関連論文リスト
- How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Tokenization Impacts Multilingual Language Modeling: Assessing
Vocabulary Allocation and Overlap Across Languages [3.716965622352967]
サブワードトークン化器で観測される語彙表現と語彙重複の質を評価するための新しい基準を提案する。
以上の結果から,言語間の語彙の重複は,特定の下流課題に支障を来す可能性があることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T18:06:49Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - The Role of Explanatory Value in Natural Language Processing [0.6091702876917281]
言語行動の説明はNLPの主な目的であるべきだと私は主張する。
我々は,NLP研究と制度政策にどのような意味があるのかを,我々のコミュニティが説明的価値を真剣に捉えているかどうかを問うことで結論づける。
論文 参考訳(メタデータ) (2022-09-13T17:19:04Z) - AUTOLEX: An Automatic Framework for Linguistic Exploration [93.89709486642666]
本稿では言語学者による言語現象の簡潔な記述の発見と抽出を容易にするための自動フレームワークを提案する。
具体的には、この枠組みを用いて、形態的一致、ケースマーキング、単語順序の3つの現象について記述を抽出する。
本研究では,言語専門家の助けを借りて記述を評価し,人間の評価が不可能な場合に自動評価を行う手法を提案する。
論文 参考訳(メタデータ) (2022-03-25T20:37:30Z) - Analysing The Impact Of Linguistic Features On Cross-Lingual Transfer [3.299672391663527]
我々は、最先端の多言語モデルを分析し、言語間の良い伝達に何が影響するかを判断する。
また,特定の構文特徴を見ることは,構文的類似性の集合よりも,性能予測に2~4倍有益であることを示す。
論文 参考訳(メタデータ) (2021-05-12T21:22:58Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - LSCP: Enhanced Large Scale Colloquial Persian Language Understanding [2.7249643773851724]
ラージスケール・コロクィアル・ペルシア語データセット」は、低リソース言語におけるコロクィアル言語を記述することを目的としている。
提案したコーパスは,2700万のツイートに解析木,音声タグ,感情の極性,5つの言語による翻訳を付加した1億2000万文からなる。
論文 参考訳(メタデータ) (2020-03-13T22:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。