論文の概要: Using LLM-assisted Annotation for Corpus Linguistics: A Case Study of
Local Grammar Analysis
- arxiv url: http://arxiv.org/abs/2305.08339v2
- Date: Thu, 25 May 2023 03:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-05-26 20:00:07.802795
- Title: Using LLM-assisted Annotation for Corpus Linguistics: A Case Study of
Local Grammar Analysis
- Title(参考訳): コーパス言語学におけるLLM補助アノテーションの使用:局所文法解析を事例として
- Authors: Danni Yu, Luyang Li, Hang Su, Matteo Fuoli
- Abstract要約: 大きな言語モデル(LLM)は、言語理解において強力な能力を示している。
本研究では,テキストの自動アノテーションによるコーパスに基づく言語研究を支援するLLMの可能性を探る。
- 参考スコア(独自算出の注目度): 7.820676694125732
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Chatbots based on Large Language Models (LLMs) have shown strong capabilities
in language understanding. In this study, we explore the potential of LLMs in
assisting corpus-based linguistic studies through automatic annotation of texts
with specific categories of linguistic information. Specifically, we examined
to what extent LLMs understand the functional elements constituting the speech
act of apology from a local grammar perspective, by comparing the performance
of ChatGPT (powered by GPT-3.5), the Bing chatbot (powered by GPT-4), and a
human coder in the annotation task. The results demonstrate that the Bing
chatbot significantly outperformed ChatGPT in the task. Compared to human
annotator, the overall performance of the Bing chatbot was slightly less
satisfactory. However, it already achieved high F1 scores: 99.95% for the tag
of APOLOGISING, 91.91% for REASON, 95.35% for APOLOGISER, 89.74% for
APOLOGISEE, and 96.47% for INTENSIFIER. This suggests that it is feasible to
use LLM-assisted annotation for local grammar analysis, together with human
intervention on tags that are less accurately recognized by machine. We
strongly advocate conducting future studies to evaluate the performance of LLMs
in annotating other linguistic phenomena. These studies have the potential to
offer valuable insights into the advancement of theories developed in corpus
linguistics, as well into the linguistic capabilities of LLMs..
- Abstract(参考訳): 大規模言語モデル(LLM)に基づくチャットボットは、言語理解において強力な能力を示している。
本研究では,特定のカテゴリの言語情報を含むテキストの自動アノテーションにより,コーパスに基づく言語研究を支援するllmの可能性を検討する。
具体的には,局所文法の観点から,LLMが言語行動を構成する機能的要素をどの程度理解しているかを,ChatGPT(GPT-3.5),Bingチャットボット(GPT-4),およびアノテーションタスクにおける人間コーダのパフォーマンスを比較して検討した。
その結果, Bing チャットボットはタスクにおいて ChatGPT を著しく上回った。
人間のアノテータと比較すると、Bingチャットボットの全体的なパフォーマンスはわずかに満足できなかった。
APOLOGISINGのタグは99.95%、REASONは91.91%、APOLOGISERは95.35%、APOLOGISEEは89.74%、INTENSIFIERは96.47%だった。
このことは,機械によって認識されにくいタグに対する人間の介入とともに,局所文法解析にllm支援アノテーションを使用することが可能であることを示唆する。
我々は,他の言語現象に注釈をつける上で,LLMの性能を評価するための今後の研究を強く提唱する。
これらの研究は、コーパス言語学で発達した理論の進歩やLLMの言語能力に関する貴重な洞察を提供する可能性がある。
.
関連論文リスト
- Type-Constrained Code Generation with Language Models [51.03439021895432]
大規模言語モデル(LLM)はコードの形式的な側面をモデル化しないため、コンパイル不可能な出力を生成する。
本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。
提案手法は,コンパイルエラーを半分以上削減し,コード合成,翻訳,修復作業における機能的正しさを向上する。
論文 参考訳(メタデータ) (2025-04-12T15:03:00Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - GPT Assisted Annotation of Rhetorical and Linguistic Features for Interpretable Propaganda Technique Detection in News Text [1.2699007098398802]
本研究は, 説得の言語に関する文献で同定された22の修辞的, 言語学的特徴を分類した。
WebアプリケーションであるRhetAnnは、そうでなければかなりの精神的な努力を最小限に抑えるように設計されている。
注釈付きデータの小さなセットは、生成的大言語モデル(LLM)であるGPT-3.5を微調整し、残りのデータに注釈を付けた。
論文 参考訳(メタデータ) (2024-07-16T15:15:39Z) - Towards Automating Text Annotation: A Case Study on Semantic Proximity Annotation using GPT-4 [4.40960504549418]
本稿では、自動プロンプトを設計するための注釈付きデータとともに、人間のアノテーションガイドラインを再利用する。
オープンソースのテキストアノテーションツールにプロンプト戦略を実装し、OpenAI APIによるオンライン利用を容易にします。
論文 参考訳(メタデータ) (2024-07-04T19:16:44Z) - Automatic Annotation of Grammaticality in Child-Caregiver Conversations [7.493963534076502]
この研究は、子どもの言語習得を大規模に研究する上で、最先端のNLP手法の適用に関する文献の増大に寄与する。
本稿では,文脈依存型文法の符号化手法を提案し,大規模な会話コーパスから4,000以上の発話を注釈付けする。
以上の結果から,微調整トランスフォーマーを用いたモデルでは,人間間のアノテーション合意レベルを達成できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-21T08:00:05Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - AmadeusGPT: a natural language interface for interactive animal
behavioral analysis [65.55906175884748]
動作の自然言語記述をマシン実行可能なコードに変換する自然言語インタフェースであるAmadeusGPTを紹介する。
MABE 2022の動作課題タスクで最先端のパフォーマンスを実現できることを示す。
アマデウスGPTは、深い生物学的知識、大規模言語モデル、そしてコアコンピュータビジョンモジュールをより自然に知的なシステムに統合する新しい方法を提示している。
論文 参考訳(メタデータ) (2023-07-10T19:15:17Z) - Towards Computationally Verifiable Semantic Grounding for Language
Models [18.887697890538455]
本論文は、エンティティ関係三重項の集合として形式化された所望のセマンティックメッセージが与えられた条件モデル生成テキストとしてLMを概念化する。
LMを自動エンコーダに埋め込むと、出力が入力メッセージと同じ表現領域にあるセマンティック・フラエンシに出力を送り込む。
提案手法は,グリーディ検索のベースラインを大幅に改善することを示す。
論文 参考訳(メタデータ) (2022-11-16T17:35:52Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - Bidirectional Language Models Are Also Few-shot Learners [54.37445173284831]
SAP(Sequential Autoregressive Prompting)は,双方向モデルの高速化を実現する技術である。
SAPは質問応答と要約に有効であることを示す。
この結果から,より広範な言語モデルの創発的特性として,プロンプトに基づく学習が証明された。
論文 参考訳(メタデータ) (2022-09-29T01:35:57Z) - Few-Shot Semantic Parsing with Language Models Trained On Code [52.23355024995237]
Codexは同等のGPT-3モデルよりもセマンティックパーシングが優れていることがわかった。
GPT-3とは異なり、Codexは意味表現を直接ターゲットとする場合、おそらく意味解析で使われる意味表現がコードと似た構造になっているように、同じように機能する。
論文 参考訳(メタデータ) (2021-12-16T08:34:06Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Constrained Language Models Yield Few-Shot Semantic Parsers [73.50960967598654]
我々は,事前学習された大規模言語モデルの利用を,少ない意味論として検討する。
意味構文解析の目標は、自然言語入力によって構造化された意味表現を生成することである。
言語モデルを用いて、入力を英語に似た制御されたサブ言語にパラフレーズし、対象の意味表現に自動的にマッピングする。
論文 参考訳(メタデータ) (2021-04-18T08:13:06Z) - Prompt Programming for Large Language Models: Beyond the Few-Shot
Paradigm [0.0]
自然言語のレンズを通してプロンプトを考えることの有用性を強調しながら,プロンプトプログラミングの手法について論じる。
モデルに種を付けて、さまざまなタスクのための独自の自然言語プロンプトを生成するメタプロンプトのアイデアを紹介します。
論文 参考訳(メタデータ) (2021-02-15T05:27:55Z) - Semantic Parsing with Less Prior and More Monolingual Data [12.715221084359085]
本研究では,ジェネリックトランスフォーマに基づくseq2seqモデルが,最小のセマンティックパース比帰納バイアス設計で競合性能を達成できるかどうかを検討する。
並列コーパスとは異なり、Webからマイニングするのに安価であるターゲットプログラミング言語の比較的大規模なモノリンガルコーパスを利用することで、Djangoの80.75%の正確な一致精度とCoNaLaの32.57のBLEUスコアを達成しました。
論文 参考訳(メタデータ) (2021-01-01T16:02:38Z) - Fast and Robust Unsupervised Contextual Biasing for Speech Recognition [16.557586847398778]
明示的な文脈言語モデルを必要としない代替手法を提案する。
学習コーパスからシステム語彙の各単語に対するバイアススコアを導出する。
関連するコンテキストが利用できる場合,認識精度が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-05-04T17:29:59Z) - Template Guided Text Generation for Task-Oriented Dialogue [9.690158790639131]
Google Assistant、Amazon Alexa、Apple Siriなどのバーチャルアシスタントを使えば、ユーザーは自然言語を使ってWeb上の多数のサービスやAPIと対話できる。
本研究では,多数のAPIにまたがる1つのドメイン非依存モデルを用いて,自然言語生成のための2つの手法について検討する。
論文 参考訳(メタデータ) (2020-04-30T17:51:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。