論文の概要: Sparse Logistic Regression with High-order Features for Automatic Grammar Rule Extraction from Treebanks
- arxiv url: http://arxiv.org/abs/2403.17534v1
- Date: Tue, 26 Mar 2024 09:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 15:57:01.677685
- Title: Sparse Logistic Regression with High-order Features for Automatic Grammar Rule Extraction from Treebanks
- Title(参考訳): 木バンクからの自動文法規則抽出のための高次特徴をもつスパースロジスティック回帰
- Authors: Santiago Herrera, Caio Corro, Sylvain Kahane,
- Abstract要約: 本研究では,木バンクから重要な粒度の文法パターンを抽出し,探索する手法を提案する。
我々は,異なる言語にまたがる記述や規則を抽出し,合意と語順の2つの言語現象について考察する。
我々の手法は、スペイン語、フランス語、ウーロフにおける有名な文法規則とあまり知られていない重要な文法規則の両方を捉えている。
- 参考スコア(独自算出の注目度): 6.390468088226495
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Descriptive grammars are highly valuable, but writing them is time-consuming and difficult. Furthermore, while linguists typically use corpora to create them, grammar descriptions often lack quantitative data. As for formal grammars, they can be challenging to interpret. In this paper, we propose a new method to extract and explore significant fine-grained grammar patterns and potential syntactic grammar rules from treebanks, in order to create an easy-to-understand corpus-based grammar. More specifically, we extract descriptions and rules across different languages for two linguistic phenomena, agreement and word order, using a large search space and paying special attention to the ranking order of the extracted rules. For that, we use a linear classifier to extract the most salient features that predict the linguistic phenomena under study. We associate statistical information to each rule, and we compare the ranking of the model's results to those of other quantitative and statistical measures. Our method captures both well-known and less well-known significant grammar rules in Spanish, French, and Wolof.
- Abstract(参考訳): 記述文法は非常に価値がありますが、それらを書くのに時間がかかり、難しいのです。
さらに、言語学者はコーパスを用いてコーパスを作成するのが一般的であるが、文法の記述には量的なデータがないことが多い。
形式文法については、解釈が難しい場合がある。
本稿では,木バンクから重要な粒度文法パターンと潜在的な構文文法規則を抽出し,探索し,理解し易いコーパスベース文法を作成する手法を提案する。
より具体的には,2つの言語現象,合意と語順に関する記述と規則を抽出し,大規模な検索空間を用いて,抽出した規則のランク付け順序に特別な注意を払う。
そのため、線形分類器を用いて、研究中の言語現象を予測する最も健全な特徴を抽出する。
我々は,各ルールに統計情報を関連付けるとともに,モデルの結果を他の量的・統計的尺度と比較する。
我々の手法は、スペイン語、フランス語、ウーロフにおける有名な文法規則とあまり知られていない重要な文法規則の両方を捉えている。
関連論文リスト
- Principles of semantic and functional efficiency in grammatical patterning [1.6267479602370545]
数や性別などの文法的特徴は、人間の言語において2つの中心的な機能を持つ。
数と性別は、数奇性やアニマシーのような有能な意味的属性を符号化するが、予測可能な単語のリンクによる文処理コストをオフロードする。
文法は多種多様な言語にまたがって一貫した組織パターンを示しており、しばしば意味論的基盤に根ざしている。
論文 参考訳(メタデータ) (2024-10-21T10:49:54Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - AUTOLEX: An Automatic Framework for Linguistic Exploration [93.89709486642666]
本稿では言語学者による言語現象の簡潔な記述の発見と抽出を容易にするための自動フレームワークを提案する。
具体的には、この枠組みを用いて、形態的一致、ケースマーキング、単語順序の3つの現象について記述を抽出する。
本研究では,言語専門家の助けを借りて記述を評価し,人間の評価が不可能な場合に自動評価を行う手法を提案する。
論文 参考訳(メタデータ) (2022-03-25T20:37:30Z) - Learning grammar with a divide-and-concur neural network [4.111899441919164]
本研究では,文脈自由文法推論に対する分割・コンカレント反復予測手法を実装した。
本手法は比較的少数の離散パラメータを必要とするため,推測文法を直接解釈可能である。
論文 参考訳(メタデータ) (2022-01-18T22:42:43Z) - Dependency Induction Through the Lens of Visual Perception [81.91502968815746]
本稿では,単語の具体性を利用した教師なし文法帰納モデルと,構成的視覚に基づく構成的文法を共同学習する手法を提案する。
実験により,提案した拡張は,文法的サイズが小さい場合でも,現在最先端の視覚的接地モデルよりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-09-20T18:40:37Z) - GrammarTagger: A Multilingual, Minimally-Supervised Grammar Profiler for
Language Education [7.517366022163375]
GrammarTaggerは、入力テキストを与えられたオープンソースの文法プロファイラで、言語教育に有用な文法的特徴を特定します。
モデルアーキテクチャにより、スパンとそのラベルで注釈付けされた少量のテキストから学ぶことができる。
また,その読解困難度と文法的特徴を指標とした言語学習教材の検索エンジン octanove learn を構築した。
論文 参考訳(メタデータ) (2021-04-07T15:31:20Z) - VLGrammar: Grounded Grammar Induction of Vision and Language [86.88273769411428]
共同学習枠組みにおける視覚と言語の基底文法誘導について検討する。
本稿では,複合確率文脈自由文法(pcfgs)を用いて言語文法と画像文法を同時に誘導する手法であるvlgrammarを提案する。
論文 参考訳(メタデータ) (2021-03-24T04:05:08Z) - Word Frequency Does Not Predict Grammatical Knowledge in Language Models [2.1984302611206537]
言語モデルの精度には,系統的な変化源が存在するかを検討する。
特定の名詞は他の名詞よりも体系的によく理解されており、文法的タスクや異なる言語モデルに対して頑健である。
名詞の文法的特性は,様々な訓練データからほとんど学習されないことが判明した。
論文 参考訳(メタデータ) (2020-10-26T19:51:36Z) - Investigating Cross-Linguistic Adjective Ordering Tendencies with a
Latent-Variable Model [66.84264870118723]
本稿では,多言語形容詞順序付けを潜在変数モデルとして,初めて純粋コーパス駆動モデルを提案する。
我々は普遍的、言語横断的、階層的形容詞順序付け傾向の存在の強い確固たる証拠を提供する。
論文 参考訳(メタデータ) (2020-10-09T18:27:55Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。