論文の概要: A frame semantics based approach to comparative study of digitized
corpus
- arxiv url: http://arxiv.org/abs/2006.00113v1
- Date: Fri, 29 May 2020 22:56:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 22:47:08.932750
- Title: A frame semantics based approach to comparative study of digitized
corpus
- Title(参考訳): フレーム意味論に基づくデジタルコーパスの比較研究
- Authors: Abdelaziz Lakhfif and Mohamed Tayeb Laskri
- Abstract要約: 本論文は, デジタル化小説から作成された英語・アラビア語対応コーパスの形態的, 構文的, 意味的アノテーションプロセスに焦点を当てたものである。
本研究では,言語間での運動事象の概念化の違いを,フレーム構造とフレーム間関係で記述することができることを論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: in this paper, we present a corpus linguistics based approach applied to
analyzing digitized classical multilingual novels and narrative texts, from a
semantic point of view. Digitized novels such as "the hobbit (Tolkien J. R. R.,
1937)" and "the hound of the Baskervilles (Doyle A. C. 1901-1902)", which were
widely translated to dozens of languages, provide rich materials for analyzing
languages differences from several perspectives and within a number of
disciplines like linguistics, philosophy and cognitive science. Taking motion
events conceptualization as a case study, this paper, focus on the morphologic,
syntactic, and semantic annotation process of English-Arabic aligned corpus
created from a digitized novels, in order to re-examine the linguistic
encodings of motion events in English and Arabic in terms of Frame Semantics.
The present study argues that differences in motion events conceptualization
across languages can be described with frame structure and frame-to-frame
relations.
- Abstract(参考訳): 本稿では,デジタル化された古典的多言語小説と物語テキストを意味論的観点から分析するためのコーパス言語学に基づくアプローチを提案する。
the hobbit (torkien j. r. r., 1937) や "the hound of the baskervilles (doyle a. c. 1901-1902) のようなデジタル化された小説は数十の言語に翻訳され、言語学、哲学、認知科学などの分野において言語の違いを分析するための豊富な資料を提供している。
本稿では,本論文の事例として,デジタル化小説から作成された英語・アラビア語対応コーパスの形態的,構文的,意味的アノテーションプロセスに注目し,フレームセマンティックスの観点から,英語・アラビア語の動作イベントの言語的エンコーディングを再検討する。
本研究は,言語間の動作事象概念化の相違をフレーム構造とフレーム間関係で記述できると主張している。
関連論文リスト
- Entropy and type-token ratio in gigaword corpora [0.0]
本研究では,英語,スペイン語,トルコ語の6つの大規模言語データセットにおいて,語彙の多様性を示す2つの指標であるエントロピーとテキストトケン比について検討した。
コーパスを横切るエントロピーとテキスト-トケン比の関数的関係が検討されている。
この結果は,テキスト構造の理論的理解に寄与し,自然言語処理などの分野に実践的な意味を与える。
論文 参考訳(メタデータ) (2024-11-15T14:40:59Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Finding Pragmatic Differences Between Disciplines [14.587150614245123]
文書セクションのドメインに依存しない記述子の固定セットを学習し、これらの記述子にコーパスを"再最適化"する。
我々は、これらの記述子の位置と順序を文書間で分析し、規律と構造の関係を理解する。
本研究は,研究の質,ドメインスタイルの移譲,さらに実践的な分析を行うための基礎となるものである。
論文 参考訳(メタデータ) (2023-09-30T00:46:14Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Zero-shot Cross-Linguistic Learning of Event Semantics [27.997873309702225]
アラビア語、中国語、ファルシ語、ドイツ語、ロシア語、トルコ語にまたがる画像のキャプションを見る。
我々は,この言語について注釈付きデータを全く見ていないにもかかわらず,ある言語に対して語彙的側面が予測可能であることを示す。
論文 参考訳(メタデータ) (2022-07-05T23:18:36Z) - The Open corpus of the Veps and Karelian languages: overview and
applications [52.77024349608834]
The Open Corpus of the Veps and Karelian Languages (VepKar)は、2009年に設立されたVepsの拡張である。
VepKarコーパスは、カレリア語とヴェプス語のテキスト、それにリンクされた多機能辞書、高度な検索システムを備えたソフトウェアで構成されている。
今後の計画には、音声録音を扱うための音声モジュールと、形態解析出力を用いた構文タグ付けモジュールの開発が含まれる。
論文 参考訳(メタデータ) (2022-06-08T13:05:50Z) - A Novel Corpus of Discourse Structure in Humans and Computers [55.74664144248097]
約27,000節からなる445の人文・コンピュータ生成文書からなる新しいコーパスを提示する。
コーパスは、フォーマルな言論と非公式な言論の両方をカバーし、微調整のGPT-2を用いて生成された文書を含んでいる。
論文 参考訳(メタデータ) (2021-11-10T20:56:08Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - The interplay between morphological typology and script on a novel
multi-layer Algerian dialect corpus [4.974890682815778]
ラテン語、アラビア語、コード切り替えスクリプトで書かれたアルジェリアのパラレルアノテーションを含む、アルジェリアのユーザー生成コメントの新しい注釈付きコーパスを紹介します。
感情分析の感度は低かったが,音声の書き方とタイポロジーには微妙な関係があることが判明した。
論文 参考訳(メタデータ) (2021-05-16T10:22:21Z) - Fine-Grained Analysis of Cross-Linguistic Syntactic Divergences [18.19093600136057]
並列コーパスから任意の言語対の発散パターンを抽出するフレームワークを提案する。
我々のフレームワークは、言語間の相違の詳細な図を提供し、以前のアプローチを一般化し、完全に自動化することを示します。
論文 参考訳(メタデータ) (2020-05-07T13:05:03Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。