論文の概要: Lexicons and grammars for language processing: industrial or handcrafted products?
- arxiv url: http://arxiv.org/abs/2606.03412v1
- Date: Tue, 02 Jun 2026 09:55:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.920426
- Title: Lexicons and grammars for language processing: industrial or handcrafted products?
- Title(参考訳): 言語処理のための辞書と文法:工業製品か手作り製品か?
- Authors: Eric Laporte,
- Abstract要約: 語彙や文法の構成過程のほとんどは手作業である。
レキシコンや文法の情報内容はコーパスよりも豊かである。
言語技術のスペシャリストは、手作業で構築されたリソースを扱うのに徐々に慣れていく。
辞書と文法の構築プロセスは自動化され、工業化されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: During the recent years, the use of linguistic data for language processing increased progressively. Such data are now commonly called language resources. Most of the language resources used for this purpose are collections of texts as the Brown Corpus and the Penn Treebank, but electronic lexicons (WordNet, FrameNet, VerbNet, ComLex, Lexicon-Grammar...) and formal grammars (TAG...) developed recently. Most processes of construction of lexicons and grammars are manual, whereas the construction of corpora has always been highly automated. However, more and more specialists of language processing realize that the information content of lexicons and grammars is richer than that of corpora, and hence the former make more elaborate processing possible. The difference in construction time is likely to be connected with the difference in information content: the handcrafting of lexicons and grammars by linguists would make them more informative than automatically generated data. This situation can evolve into two directions: either specialists of language technology get progressively used to handling manually constructed resources, which are more informative and more complex, or the process of construction of lexicons and grammars is automated and industrialized, which is the mainstream perspective. Both evolutions are already in progress, and a tension exists between them. The relation between linguists and computer scientists depends on the future of these evolutions, since the first implies training and hiring numerous linguists, whereas the other depends essentially on solutions elaborated by computer engineers. The aim of this article is to analyse practical examples of the language resources in question, and to discuss about which of the two trends, handcrafting or generating industrially, or a combination of both, can give the best results or is the most realistic.
- Abstract(参考訳): 近年,言語処理における言語データの利用は徐々に増加している。
このようなデータは現在では言語資源と呼ばれている。
この目的に使用される言語リソースのほとんどは、Brown CorpusやPenn Treebankのようなテキストの集合であるが、最近開発された電子辞書(WordNet、FrameNet、VerbNet、ComLex、Lexicon-Grammar...)や形式文法(TAG...)である。
語彙や文法の構築過程のほとんどは手作業であるが、コーパスの構築は常に高度に自動化されている。
しかし、言語処理の専門家は、レキシコンや文法の情報内容がコーパスよりも豊かであることを認識し、前者がより精巧な処理を可能にしている。
言語学者による語彙と文法の手作りは、自動生成データよりも情報的になる。
この状況は、言語技術のスペシャリストが、より情報的で複雑な手作業で構築されたリソースを扱うのに徐々に慣れていくか、レキシコンと文法の構築プロセスが自動化され、工業化され、これが主流の視点である。
どちらの進化も既に進行中であり、両者の間には緊張関係が存在する。
言語学者と計算機科学者の関係は、まず多くの言語学者を訓練し雇うことを暗示するため、これらの進化の将来に依存する。
本稿の目的は、問題となっている言語資源の実践例を分析し、手作りか工業的に生成する2つのトレンドのどれが最良の結果をもたらすか、最も現実的なものかを議論することである。
関連論文リスト
- Multilinguality of Large Language Models From a Structural Perspective [55.097821802807566]
大規模言語モデル(LLM)は、多言語データに対する事前および後訓練によって複数の言語を処理するのに優れている。
その結果,低リソース言語は高水準言語や中級言語と構造的に異なることが明らかとなった。
論文 参考訳(メタデータ) (2026-06-01T07:18:09Z) - Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - Tamil Language Computing: the Present and the Future [0.0]
言語コンピューティングは言語学、コンピュータ科学、認知心理学を統合し、有意義な人間とコンピュータの相互作用を作り出す。
近年のディープラーニングの進歩により、コンピュータはよりアクセスしやすくなり、独立した学習と適応が可能になった。
この論文は、日常的なコミュニケーションニーズに対応するために、Tamilのような言語のための実用的なアプリケーションを構築することの重要性を強調している。
論文 参考訳(メタデータ) (2024-07-11T15:56:02Z) - Enhancing Language Learning through Technology: Introducing a New English-Azerbaijani (Arabic Script) Parallel Corpus [0.9051256541674136]
本稿では,英語・アゼルバイジャン語の並列コーパスについて紹介する。
これは、低リソース言語のための言語学習と機械翻訳の技術的ギャップを埋めるように設計されている。
論文 参考訳(メタデータ) (2024-07-06T21:23:20Z) - Symbolic Learning Enables Self-Evolving Agents [55.625275970720374]
エージェントシンボリックラーニング(エージェントシンボリックラーニング)(エージェントシンボリックラーニング)は、言語エージェントが自分自身で最適化できるための体系的なフレームワークである。
エージェント記号学習は、コネクショナリズム学習における2つの基本的なアルゴリズムを模倣することにより、言語エージェント内のシンボルネットワークを最適化するように設計されている。
我々は、標準ベンチマークと複雑な実世界のタスクの両方で概念実証実験を行う。
論文 参考訳(メタデータ) (2024-06-26T17:59:18Z) - Large Language Models for Scientific Synthesis, Inference and
Explanation [56.41963802804953]
大規模言語モデルがどのように科学的合成、推論、説明を行うことができるかを示す。
我々は,この「知識」を科学的文献から合成することで,大きな言語モデルによって強化できることを示す。
このアプローチは、大きな言語モデルが機械学習システムの予測を説明することができるというさらなる利点を持っている。
論文 参考訳(メタデータ) (2023-10-12T02:17:59Z) - Pretraining with Artificial Language: Studying Transferable Knowledge in
Language Models [32.27333420000134]
ニューラルネットワークエンコーダが自然言語処理にどのような構造的知識を伝達できるかを考察する。
我々は、自然言語を模倣する構造的特性を持つ人工言語を設計し、データ上にエンコーダを事前訓練し、そのエンコーダが自然言語の下流タスクにどれだけの性能を示すかを確認する。
論文 参考訳(メタデータ) (2022-03-19T13:29:48Z) - On the validity of pre-trained transformers for natural language
processing in the software engineering domain [78.32146765053318]
ソフトウェア工学データを用いて訓練されたBERT変換器モデルと一般領域データに基づく変換器との比較を行った。
ソフトウェアエンジニアリングのコンテキストを理解するために必要なタスクに対しては,ソフトウェアエンジニアリングデータの事前学習が重要であることを示す。
論文 参考訳(メタデータ) (2021-09-10T08:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。