論文の概要: GiesKaNe: Bridging Past and Present in Grammatical Theory and Practical Application
- arxiv url: http://arxiv.org/abs/2502.05113v1
- Date: Fri, 07 Feb 2025 17:35:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:56:51.240625
- Title: GiesKaNe: Bridging Past and Present in Grammatical Theory and Practical Application
- Title(参考訳): GiesKaNe: 文法理論における過去と現在
- Authors: Volker Emmrich,
- Abstract要約: GiesKaNeプロジェクトでは、コーパスコンパイルの要件について検討している。
歴史的コーパスとして、GiesKaNeは歴史的コーパスと現代コーパスの両方との関係を確立することを目的としている。
このようなプロジェクトの方法論的な複雑さは、人間の専門知識と機械支援プロセスの補完的な相互作用を通じて管理される。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This article explores the requirements for corpus compilation within the GiesKaNe project (University of Giessen and Kassel, Syntactic Basic Structures of New High German). The project is defined by three central characteristics: it is a reference corpus, a historical corpus, and a syntactically deeply annotated treebank. As a historical corpus, GiesKaNe aims to establish connections with both historical and contemporary corpora, ensuring its relevance across temporal and linguistic contexts. The compilation process strikes the balance between innovation and adherence to standards, addressing both internal project goals and the broader interests of the research community. The methodological complexity of such a project is managed through a complementary interplay of human expertise and machine-assisted processes. The article discusses foundational topics such as tokenization, normalization, sentence definition, tagging, parsing, and inter-annotator agreement, alongside advanced considerations. These include comparisons between grammatical models, annotation schemas, and established de facto annotation standards as well as the integration of human and machine collaboration. Notably, a novel method for machine-assisted classification of texts along the continuum of conceptual orality and literacy is proposed, offering new perspectives on text selection. Furthermore, the article introduces an approach to deriving de facto standard annotations from existing ones, mediating between standardization and innovation. In the course of describing the workflow the article demonstrates that even ambitious projects like GiesKaNe can be effectively implemented using existing research infrastructure, requiring no specialized annotation tools. Instead, it is shown that the workflow can be based on the strategic use of a simple spreadsheet and integrates the capabilities of the existing infrastructure.
- Abstract(参考訳): 本稿では、GiesKaNeプロジェクト(Giessen and Kassel, Syntactic Basic Structures of New High German)におけるコーパスコンパイルの要件について述べる。
プロジェクトは、参照コーパス、歴史的コーパス、および構文的に深く注釈付けされたツリーバンクの3つの中心的な特徴によって定義される。
歴史的コーパスとして、GiesKaNeは歴史的コーパスと現代的コーパスの両方との関係を確立することを目的としており、時間的および言語的文脈におけるその関連性を保証する。
コンピレーションプロセスは、イノベーションと標準の遵守のバランスを崩し、内部プロジェクト目標と研究コミュニティの幅広い利益の両方に対処する。
このようなプロジェクトの方法論的な複雑さは、人間の専門知識と機械支援プロセスの補完的な相互作用を通じて管理される。
本稿では,トークン化,正規化,文定義,タグ付け,構文解析,アノテーション間の合意といった基本的トピックを,高度な考察とともに論じる。
これには文法モデルの比較、アノテーションスキーマ、確立されたデファクトアノテーション標準、人間と機械のコラボレーションの統合が含まれる。
特に、概念的オリティーとリテラシーの連続性に沿ったテキストの機械支援分類法が提案され、テキスト選択に関する新たな視点が提供される。
さらに、この記事では、デファクト標準アノテーションを既存のアノテーションから導き出し、標準化とイノベーションを仲介するアプローチを紹介します。
ワークフローを記述する過程で、記事は、GiesKaNeのような野心的なプロジェクトでさえ、既存の研究インフラを使って効果的に実装でき、特別なアノテーションツールを必要としないことを示した。
その代わり、ワークフローは単純なスプレッドシートの戦略的利用に基づいており、既存のインフラの機能を統合できることが示されている。
関連論文リスト
- Re3: A Holistic Framework and Dataset for Modeling Collaborative Document Revision [62.12545440385489]
共同文書リビジョンを共同で分析するためのフレームワークであるRe3を紹介する。
本稿では,Re3-Sciについて紹介する。Re3-Sciは,その行動と意図に応じて手動でラベル付けされた科学的論文の大規模なコーパスである。
我々は,新しいデータを用いて,学術領域における共同文書改訂に関する実証的研究を行った。
論文 参考訳(メタデータ) (2024-05-31T21:19:09Z) - Specifying Genericity through Inclusiveness and Abstractness Continuous Scales [1.024113475677323]
本稿では,自然言語における名詞句(NP)の詳細なモデリングのための新しいアノテーションフレームワークを提案する。
このフレームワークはシンプルで直感的に設計されており、専門家でないアノテータにもアクセスでき、クラウドソースのタスクに適している。
論文 参考訳(メタデータ) (2024-03-22T15:21:07Z) - BBScore: A Brownian Bridge Based Metric for Assessing Text Coherence [20.507596002357655]
コヒーレントテキストは本質的に文間の連続的かつ密着的な相互作用を示す。
BBScore(英: BBScore)は、ブラウン橋理論において、テキストコヒーレンスを評価するための基準のない計量である。
論文 参考訳(メタデータ) (2023-12-28T08:34:17Z) - Towards Verifiable Generation: A Benchmark for Knowledge-aware Language Model Attribution [48.86322922826514]
本稿では,知識認識型言語モデル属性(KaLMA)の新たな課題について述べる。
まず、属性のソースを構造化されていないテキストから知識グラフ(KG)に拡張し、そのリッチな構造は属性のパフォーマンスと作業シナリオの両方に役立ちます。
第2に,不完全な知識リポジトリを考慮した「意識的非能力」の設定を提案する。
第3に,テキスト品質,引用品質,引用アライメントを含む総合的な自動評価指標を提案する。
論文 参考訳(メタデータ) (2023-10-09T11:45:59Z) - Topics as Entity Clusters: Entity-based Topics from Large Language Models and Graph Neural Networks [0.6486052012623045]
本稿では,エンティティのバイモーダルベクトル表現を用いたトピッククラスタリング手法を提案する。
我々のアプローチは、最先端のモデルと比較してエンティティを扱うのに適している。
論文 参考訳(メタデータ) (2023-01-06T10:54:54Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - O-Dang! The Ontology of Dangerous Speech Messages [53.15616413153125]
O-Dang!:The Ontology of Dangerous Speech Messages, a systematic and interoperable Knowledge Graph (KG)
O-Dang!は、Lingguistic Linked Open Dataコミュニティで共有されている原則に従って、イタリアのデータセットを構造化されたKGにまとめ、整理するように設計されている。
ゴールド・スタンダードとシングル・アノテータのラベルをKGにエンコードするモデルを提供する。
論文 参考訳(メタデータ) (2022-07-13T11:50:05Z) - Target-aware Abstractive Related Work Generation with Contrastive
Learning [48.02845973891943]
関連作業部は学術論文の重要な構成要素であり、参考論文の文脈における対象論文の貢献を強調している。
既存の作業部生成手法の多くは、既成の文章を抽出することに依存している。
本稿では,新たな文からなる関連作業区間を生成できる抽象的目標認識関連作業生成装置(TAG)を提案する。
論文 参考訳(メタデータ) (2022-05-26T13:20:51Z) - Revise and Resubmit: An Intertextual Model of Text-based Collaboration
in Peer Review [52.359007622096684]
ピアレビューは、ほとんどの科学分野における出版プロセスの重要な要素である。
既存のNLP研究は個々のテキストの分析に重点を置いている。
編集補助は、しばしばテキストのペア間の相互作用をモデル化する必要がある。
論文 参考訳(メタデータ) (2022-04-22T16:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。