論文の概要: From Labels to Facets: Building a Taxonomically Enriched Turkish Learner Corpus
- arxiv url: http://arxiv.org/abs/2601.22875v2
- Date: Mon, 02 Feb 2026 20:05:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 13:28:03.692097
- Title: From Labels to Facets: Building a Taxonomically Enriched Turkish Learner Corpus
- Title(参考訳): ラベルから顔へ:分類学的に富んだトルコの学習者コーパスを作る
- Authors: Elif Sayar, Tolgahan Türker, Anna Golynskaia Knezhevich, Bihter Dereli, Ayşe Demirhas, Lionel Nicolas, Gülşen Eryiğit,
- Abstract要約: 本稿では,最近提案された表層分類に基づく学習者コーパスに対する半粒度アノテーション手法を提案する。
分類学は、各エラーインスタンスの根底にある言語特性をキャプチャする理論的に基礎付けられた多次元分類を提供する。
その結果得られた分類学的に富んだコーパスは、クエリ機能を強化し、学習者コーパス間の詳細な探索分析をサポートする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In terms of annotation structure, most learner corpora rely on holistic flat label inventories which, even when extensive, do not explicitly separate multiple linguistic dimensions. This makes linguistically deep annotation difficult and complicates fine-grained analyses aimed at understanding why and how learners produce specific errors. To address these limitations, this paper presents a semi-automated annotation methodology for learner corpora, built upon a recently proposed faceted taxonomy, and implemented through a novel annotation extension framework. The taxonomy provides a theoretically grounded, multi-dimensional categorization that captures the linguistic properties underlying each error instance, thereby enabling standardized, fine-grained, and interpretable enrichment beyond flat annotations. The annotation extension tool, implemented based on the proposed extension framework for Turkish, automatically extends existing flat annotations by inferring additional linguistic and metadata information as facets within the taxonomy to provide richer learner-specific context. It was systematically evaluated and yielded promising performance results, achieving a facet-level accuracy of 95.86%. The resulting taxonomically enriched corpus offers enhanced querying capabilities and supports detailed exploratory analyses across learner corpora, enabling researchers to investigate error patterns through complex linguistic and pedagogical dimensions. This work introduces the first collaboratively annotated and taxonomically enriched Turkish Learner Corpus, a manual annotation guideline with a refined tagset, and an annotation extender. As the first corpus designed in accordance with the recently introduced taxonomy, we expect our study to pave the way for subsequent enrichment efforts of existing error-annotated learner corpora.
- Abstract(参考訳): 注釈構造の観点からは、ほとんどの学習者コーパスは、たとえ広くても、複数の言語的次元を明示的に分離しない、全体論的フラットラベルの在庫に依存している。
このことは言語学的に深いアノテーションを難しくし、なぜ学習者が特定の誤りを発生させるのかを理解することを目的としたきめ細かい分析を複雑化する。
これらの制約に対処するため,本研究では,最近提案された顔分類に基づく学習者コーパスのための半自動アノテーション手法を提案し,新しいアノテーション拡張フレームワークを用いて実装した。
分類学は、理論上基礎を成す多次元分類を提供し、各エラーインスタンスの根底にある言語特性を捉え、フラットアノテーションを超えて標準化され、きめ細かな、解釈可能なエンリッチメントを可能にする。
提案したトルコ語拡張フレームワークに基づいて実装されたアノテーション拡張ツールは,より豊かな学習者固有の文脈を提供するために,分類学内のファセットとして追加の言語情報やメタデータ情報を推論することにより,既存のフラットアノテーションを自動的に拡張する。
体系的に評価され、有望な性能が得られ、ファセットレベルの精度は95.86%に達した。
その結果得られた分類学的に富んだコーパスは、クエリ機能を強化し、学習者コーパスをまたいだ詳細な探索分析をサポートし、複雑な言語的および教育的な次元を通じてエラーパターンを研究できる。
この研究は、最初に共同で注釈付けされ、分類学的に強化されたトルコの学習者コーパス、改良されたタグセットを備えた手動の注釈ガイドライン、およびアノテーション拡張機能を導入している。
本研究は,最近導入された分類基準に従って設計された最初のコーパスとして,既存の誤り注釈学習者コーパスの強化努力の道を開くことを期待する。
関連論文リスト
- Towards Corpus-Grounded Agentic LLMs for Multilingual Grammatical Analysis [0.5545791216381869]
本稿では, エージェント型大規模言語モデル (LLM) を用いて, 注釈付きコーパスの体系的解析を効率化する方法について検討する。
本稿では,自然言語タスク解釈などの概念を統合したコーパスグラウンド文法解析のためのエージェントフレームワークを提案する。
We test the system on multilingual grammatical tasks by the World Atlas of Language Structures (WALS) (英語)
論文 参考訳(メタデータ) (2025-11-28T21:27:58Z) - Specifying Genericity through Inclusiveness and Abstractness Continuous Scales [1.024113475677323]
本稿では,自然言語における名詞句(NP)の詳細なモデリングのための新しいアノテーションフレームワークを提案する。
このフレームワークはシンプルで直感的に設計されており、専門家でないアノテータにもアクセスでき、クラウドソースのタスクに適している。
論文 参考訳(メタデータ) (2024-03-22T15:21:07Z) - Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding [143.5927158318524]
テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素である、と我々は主張する。
論文 参考訳(メタデータ) (2023-01-22T08:02:23Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - Taxonomy Enrichment with Text and Graph Vector Representations [61.814256012166794]
我々は,既存の分類学に新たな語を加えることを目的とした分類学の豊かさの問題に対処する。
我々は,この課題に対して,少ない労力で高い結果を得られる新しい手法を提案する。
我々は、異なるデータセットにわたる最先端の結果を達成し、ミスの詳細なエラー分析を提供する。
論文 参考訳(メタデータ) (2022-01-21T09:01:12Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z) - On the Impact of Knowledge-based Linguistic Annotations in the Quality
of Scientific Embeddings [0.0]
我々は, 科学的コーパスから埋め込みを生成するために, 明示的な言語アノテーションを用いた研究を行う。
以上の結果から,組込みにおけるアノテーションの効果は評価作業によってどのように変化するかを示す。
一般に,言語アノテーションを用いた埋め込み学習が,より良い評価結果の獲得に寄与すると考えられる。
論文 参考訳(メタデータ) (2021-04-13T13:51:22Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。