論文の概要: Extending dependencies to the taggedPBC: Word order in transitive clauses
- arxiv url: http://arxiv.org/abs/2506.06785v1
- Date: Sat, 07 Jun 2025 12:52:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.48058
- Title: Extending dependencies to the taggedPBC: Word order in transitive clauses
- Title(参考訳): タグ付きPBCへの依存関係の拡張:推移節における単語順
- Authors: Hiram Ring,
- Abstract要約: 本稿では, POSタグとともに依存情報をタグ付きPBCの全言語に転送するデータセットのCoNLLU形式バージョンについて報告する。
依存性アノテートされたコーパスもGitHub経由で研究とコラボレーションが可能である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The taggedPBC (Ring 2025a) contains more than 1,800 sentences of pos-tagged parallel text data from over 1,500 languages, representing 133 language families and 111 isolates. While this dwarfs previously available resources, and the POS tags achieve decent accuracy, allowing for predictive crosslinguistic insights (Ring 2025b), the dataset was not initially annotated for dependencies. This paper reports on a CoNLLU-formatted version of the dataset which transfers dependency information along with POS tags to all languages in the taggedPBC. Although there are various concerns regarding the quality of the tags and the dependencies, word order information derived from this dataset regarding the position of arguments and predicates in transitive clauses correlates with expert determinations of word order in three typological databases (WALS, Grambank, Autotyp). This highlights the usefulness of corpus-based typological approaches (as per Baylor et al. 2023; Bjerva 2024) for extending comparisons of discrete linguistic categories, and suggests that important insights can be gained even from noisy data, given sufficient annotation. The dependency-annotated corpora are also made available for research and collaboration via GitHub.
- Abstract(参考訳): タグ付きPBC (Ring 2025a) は1500以上の言語から1,800以上のposタグ付き並列テキストデータを含む。
POSタグは正確な精度を達成し、予測的な言語横断的な洞察を可能にする(Ring 2025b)が、データセットは最初は依存関係に対して注釈が付けられていなかった。
本稿では, POSタグとともに依存情報をタグ付きPBCの全言語に転送するデータセットのCoNLLU形式バージョンについて報告する。
タグの質や依存関係については諸々の懸念があるが、このデータセットから派生した、議論の位置に関する単語順序情報と、推移的節における述語は、3つのタイプロジカルデータベース(WALS、Grambank、Autotyp)における単語順序の専門的決定と相関する。
このことは、個別の言語カテゴリーの比較を拡張するためのコーパスに基づく類型的アプローチ(Baylor et al 2023; Bjerva 2024)の有用性を強調し、十分なアノテーションを与えられたノイズデータからも重要な洞察を得ることができることを示唆している。
依存性アノテートされたコーパスもGitHub経由で研究とコラボレーションが可能である。
関連論文リスト
- The taggedPBC: Annotating a massive parallel corpus for crosslinguistic investigations [0.0]
タグ付きPBCは1500以上の言語から1,800以上のposタグ付き並列テキストデータを含む。
このデータセットのタグの精度は、両方の既存のSOTAタグと高いソース言語との相関関係が示されている。
このデータセットから得られた新しい尺度であるN1比は,3つの類型的データベースにおける単語順の専門的決定と相関する。
論文 参考訳(メタデータ) (2025-05-18T22:13:32Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - xDBTagger: Explainable Natural Language Interface to Databases Using
Keyword Mappings and Schema Graph [0.17188280334580192]
自然言語クエリをインターフェース内の構造化クエリ言語(NLQ)にリレーショナルデータベースに変換することは、難しい作業である。
我々は xDBTagger を提案する。xDBTagger は説明可能なハイブリッド翻訳パイプラインで,ユーザがテキストと視覚の両方で行う決定について説明する。
xDBTaggerは精度の点で有効であり、クエリを最先端のパイプラインベースシステムと比較して最大10000倍の効率で変換する。
論文 参考訳(メタデータ) (2022-10-07T18:17:09Z) - What Makes Sentences Semantically Related: A Textual Relatedness Dataset
and Empirical Study [31.062129406113588]
本稿では,5500の英文対を手動で注釈付けしたセマンティックテキスト関連性データセットSTR-2022を紹介する。
文対の関連性に関する人間の直感は信頼性が高く, 繰り返しアノテーションの相関は0.84である。
また, STR-2022は, 文章表現の自動手法や, 下流の様々なNLPタスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2021-10-10T16:23:54Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z) - The Annotation Guideline of LST20 Corpus [0.3161954199291541]
データセットは、使いやすさのためにCoNLL-2003スタイルのフォーマットに準拠している。
大規模では3,164,864語、288,020語、248,962節、74,180文からなる。
3,745件の文書には15のニュースジャンルが注釈付けされている。
論文 参考訳(メタデータ) (2020-08-12T01:16:45Z) - Prague Dependency Treebank -- Consolidated 1.0 [1.7147127043116672]
Prague Dependency Treebank-Consolidated 1.0 (PDT-C 1.0)
PDT-C 1.0はチェコの4つの異なるデータセットを含み、標準のPDTスキームで一様に注釈付けされている。
ツリーバンクには、その形態的、表面的、そして深い構文的アノテーションを含む約180,000の文が含まれている。
論文 参考訳(メタデータ) (2020-06-05T20:52:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。