論文の概要: RusLICA: A Russian-Language Platform for Automated Linguistic Inquiry and Category Analysis
- arxiv url: http://arxiv.org/abs/2601.20275v1
- Date: Wed, 28 Jan 2026 05:43:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.785819
- Title: RusLICA: A Russian-Language Platform for Automated Linguistic Inquiry and Category Analysis
- Title(参考訳): RusLICA: 自動言語問合せとカテゴリー分析のためのロシア言語プラットフォーム
- Authors: Elina Sigdel, Anastasia Panfilova,
- Abstract要約: 本稿では,レマを42の精神言語カテゴリーにマッピングするプロセスと,RusLICA Webサービスの一部としてのアナライザの実装について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Defining psycholinguistic characteristics in written texts is a task gaining increasing attention from researchers. One of the most widely used tools in the current field is Linguistic Inquiry and Word Count (LIWC) that originally was developed to analyze English texts and translated into multiple languages. Our approach offers the adaptation of LIWC methodology for the Russian language, considering its grammatical and cultural specificities. The suggested approach comprises 96 categories, integrating syntactic, morphological, lexical, general statistical features, and results of predictions obtained using pre-trained language models (LMs) for text analysis. Rather than applying direct translation to existing thesauri, we built the dictionary specifically for the Russian language based on the content from several lexicographic resources, semantic dictionaries and corpora. The paper describes the process of mapping lemmas to 42 psycholinguistic categories and the implementation of the analyzer as part of RusLICA web service.
- Abstract(参考訳): 文章中の心理言語的特徴を定義することは、研究者から注目が集まっている課題である。
現在の分野で最も広く使われているツールの1つは、もともと英語のテキストを分析して複数の言語に翻訳するために開発されたLingguistic Inquiry and Word Count (LIWC)である。
我々のアプローチは、その文法的および文化的特異性を考慮して、ロシア語に対するLIWC方法論の適応を提供する。
提案手法は, 構文, 形態, 語彙, 一般統計的特徴を統合した96のカテゴリと, テキスト解析のための事前学習言語モデル(LM)を用いて得られた予測結果からなる。
既存のテッサウリに直接翻訳する代わりに、いくつかの辞書資料、意味辞書、コーパスの内容をベースとしたロシア語用辞書を構築した。
本稿では,レマを42の精神言語カテゴリーにマッピングするプロセスと,RusLICA Webサービスの一部としてのアナライザの実装について述べる。
関連論文リスト
- Towards Corpus-Grounded Agentic LLMs for Multilingual Grammatical Analysis [0.5545791216381869]
本稿では, エージェント型大規模言語モデル (LLM) を用いて, 注釈付きコーパスの体系的解析を効率化する方法について検討する。
本稿では,自然言語タスク解釈などの概念を統合したコーパスグラウンド文法解析のためのエージェントフレームワークを提案する。
We test the system on multilingual grammatical tasks by the World Atlas of Language Structures (WALS) (英語)
論文 参考訳(メタデータ) (2025-11-28T21:27:58Z) - Predicate-Argument Structure Divergences in Chinese and English Parallel Sentences and their Impact on Language Transfer [6.834698677197089]
言語間自然言語処理は、低リソース環境で実用的なソリューションを提供する。
言語の違いは、特に類型的には遠い言語の間で、言語移動を妨げる。
本稿では、中国語と英語の同時文における述語句構造の分析について述べる。
論文 参考訳(メタデータ) (2025-11-12T22:55:29Z) - From MTEB to MTOB: Retrieval-Augmented Classification for Descriptive Grammars [0.17205738196786996]
モデルが言語文法からどのように情報を抽出し、分類できるかを評価するためのベンチマークのセットを紹介する。
ベンチマークは、WALSとGrambankの類型的特徴に焦点を当てた、言語家族間で248の言語に関する言語記述を含んでいる。
このベンチマークは、言語モデルの言語的特徴を正確に解釈し抽出するコンテキスト内能力を、初めて包括的に評価するものである。
論文 参考訳(メタデータ) (2024-11-23T14:47:10Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - The Grammar and Syntax Based Corpus Analysis Tool For The Ukrainian
Language [0.0]
StyloMetrixは、英語、スペイン語、ドイツ語などの文法、スタイリスティック、構文パターンを分析するツールである。
我々は、StyloMetrixパイプラインを説明し、テキスト分類タスクのためにこのツールでいくつかの実験を行う。
また、パッケージの主な制限とメトリクスの評価手順についても述べる。
論文 参考訳(メタデータ) (2023-05-22T22:52:47Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark [5.258267224004844]
先進的なロシア語理解評価ベンチマークであるロシア語GLUEを紹介する。
9つのタスクのベンチマークは、SuperGLUEの手法と類似して収集され、ロシア語のスクラッチから開発された。
論文 参考訳(メタデータ) (2020-10-29T20:31:39Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。