論文の概要: A large-scale, unsupervised pipeline for automatic corpus annotation using LLMs: variation and change in the English consider construction
- arxiv url: http://arxiv.org/abs/2510.12306v1
- Date: Tue, 14 Oct 2025 09:06:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.261828
- Title: A large-scale, unsupervised pipeline for automatic corpus annotation using LLMs: variation and change in the English consider construction
- Title(参考訳): LLMを用いた自動コーパスアノテーションのための大規模教師なしパイプライン:英語の変形と構造変化
- Authors: Cameron Morin, Matti Marttinen Larsson,
- Abstract要約: 大規模言語モデル(LLM)を用いた語彙コーパスにおける文法アノテーションの自動化のためのスケーラブルで教師なしパイプラインを提案する。
提案手法では,4段階のワークフロー,即時エンジニアリング,事前評価,自動バッチ処理,ポストホック検証を用いる。
GPT-5をOpenAI API経由で使用し,過去アメリカ英語コーパス(COHA)の143,933文を60時間以内で注釈し,2つの高度なアノテーション手順において98%以上の精度を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As natural language corpora expand at an unprecedented rate, manual annotation remains a significant methodological bottleneck in corpus linguistic work. We address this challenge by presenting a scalable, unsupervised pipeline for automating grammatical annotation in voluminous corpora using large language models (LLMs). Unlike previous supervised and iterative approaches, our method employs a four-phase workflow: prompt engineering, pre-hoc evaluation, automated batch processing, and post-hoc validation. We demonstrate the pipeline's accessibility and effectiveness through a diachronic case study of variation in the English consider construction. Using GPT-5 through the OpenAI API, we annotate 143,933 sentences from the Corpus of Historical American English (COHA) in under 60 hours, achieving 98%+ accuracy on two sophisticated annotation procedures. Our results suggest that LLMs can perform a range of data preparation tasks at scale with minimal human intervention, opening new possibilities for corpus-based research, though implementation requires attention to costs, licensing, and other ethical considerations.
- Abstract(参考訳): 自然言語コーパスが前例のない速度で拡大するにつれて、手動アノテーションはコーパス言語研究において重要な方法論的ボトルネックとなっている。
本稿では,大規模言語モデル(LLM)を用いた文法アノテーションの自動生成のための,スケーラブルで教師なしパイプラインを提案することで,この問題に対処する。
従来の教師付きおよび反復的なアプローチとは違って,本手法では,迅速なエンジニアリング,事前評価,自動バッチ処理,ポストホック検証という4段階のワークフローを採用している。
本稿では, パイプラインのアクセシビリティと有効性について, 英語のコンストラクションの変動をダイアクロニックケーススタディで検証した。
GPT-5をOpenAI API経由で使用し,過去アメリカ英語コーパス(COHA)の143,933文を60時間以内で注釈し,2つの高度なアノテーション手順において98%以上の精度を達成した。
この結果から,LLMは人的介入を最小限に抑え,コーパスベース研究の新たな可能性を開くとともに,コストやライセンス,その他の倫理的配慮に留意する必要があると考えられる。
関連論文リスト
- When LLMs Struggle: Reference-less Translation Evaluation for Low-resource Languages [9.138590152838754]
セグメントレベルの品質評価(QE)は言語間理解の難しい課題である。
ゼロ/フェーショットシナリオにおいて,大規模言語モデル (LLM) を包括的に評価する。
この結果から,エンコーダを用いた微調整QEモデルでは,プロンプトベースアプローチの方が優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-01-08T12:54:05Z) - Large corpora and large language models: a replicable method for automating grammatical annotation [0.0]
英語評価動詞構築における形式的変化の事例研究に応用された方法論的パイプライン「consider X (as) (to be) Y」を紹介する。
少数のトレーニングデータだけで、保留中のテストサンプルで90%以上の精度でモデルに到達します。
本研究は, 文法的構成と文法的変化および変化に関する幅広いケーススタディに対して, 結果の一般化可能性について論じる。
論文 参考訳(メタデータ) (2024-11-18T03:29:48Z) - TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - Human-in-the-loop Machine Translation with Large Language Model [44.86068991765771]
大規模言語モデル (LLM) は、文脈内学習機構と創発的能力によって大きな注目を集めている。
そこで本研究では,LLMを誘導し,リビジョン命令付きで出力をカスタマイズするHuman-in-the-loopパイプラインを提案する。
GPT-3.5-turbo APIを用いて、ドイツ語翻訳のための5つのドメイン固有ベンチマークにおいて、提案したパイプラインを評価する。
論文 参考訳(メタデータ) (2023-10-13T07:30:27Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Assessing the potential of LLM-assisted annotation for corpus-based pragmatics and discourse analysis: The case of apology [9.941695905504282]
本研究では,大規模言語モデル (LLM) を用いてプラグマ・ディスカッシブ・コーパスのアノテーションを自動生成する可能性について検討する。
GPT-4はGPT-3.5より優れており,精度は人間のコーダに近づいた。
論文 参考訳(メタデータ) (2023-05-15T04:10:13Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。