論文の概要: A Scalable Pipeline for Estimating Verb Frame Frequencies Using Large Language Models
- arxiv url: http://arxiv.org/abs/2507.22187v1
- Date: Tue, 29 Jul 2025 19:30:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:17.833976
- Title: A Scalable Pipeline for Estimating Verb Frame Frequencies Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた動詞フレーム周波数推定のためのスケーラブルパイプライン
- Authors: Adam M. Morgan, Adeen Flinker,
- Abstract要約: VFF(Verb Frame Frequencies)を推定するための自動パイプラインを提案する。
VFFは、人間と機械言語システムの両方において、強力な構文への窓を提供する。
我々は、大言語モデル(LLM)を用いて、476の英動詞を含む文のコーパスを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an automated pipeline for estimating Verb Frame Frequencies (VFFs), the frequency with which a verb appears in particular syntactic frames. VFFs provide a powerful window into syntax in both human and machine language systems, but existing tools for calculating them are limited in scale, accuracy, or accessibility. We use large language models (LLMs) to generate a corpus of sentences containing 476 English verbs. Next, by instructing an LLM to behave like an expert linguist, we had it analyze the syntactic structure of the sentences in this corpus. This pipeline outperforms two widely used syntactic parsers across multiple evaluation datasets. Furthermore, it requires far fewer resources than manual parsing (the gold-standard), thereby enabling rapid, scalable VFF estimation. Using the LLM parser, we produce a new VFF database with broader verb coverage, finer-grained syntactic distinctions, and explicit estimates of the relative frequencies of structural alternates commonly studied in psycholinguistics. The pipeline is easily customizable and extensible to new verbs, syntactic frames, and even other languages. We present this work as a proof of concept for automated frame frequency estimation, and release all code and data to support future research.
- Abstract(参考訳): 本稿では,動詞が特に構文的フレームに現れる頻度である動詞フレーム周波数(VFF)を推定するための自動パイプラインを提案する。
VFFは、人間と機械言語システムの両方で強力な構文の窓を提供するが、それらを計算するための既存のツールは、スケール、精度、アクセシビリティに制限されている。
我々は、大言語モデル(LLM)を用いて、476の英動詞を含む文のコーパスを生成する。
次に、LLMに専門家言語学者として振舞うように指示することで、このコーパスの文の構文構造を分析した。
このパイプラインは、複数の評価データセットで広く使われている2つの構文解析器より優れている。
さらに、手動解析(ゴールドスタンダード)よりもはるかに少ないリソースを必要とするため、高速でスケーラブルなVFF推定が可能になる。
LLMパーサを用いて、より広い動詞カバレッジ、よりきめ細かい構文的区別、そして精神言語学でよく研究される構造交互の相対周波数の明示的な推定を含む新しいVFFデータベースを作成する。
パイプラインはカスタマイズが容易で、新しい動詞、構文フレーム、さらには他の言語にも拡張可能である。
本研究は,フレーム周波数の自動推定のための概念実証として,将来の研究を支援するためのすべてのコードとデータをリリースする。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価する。
3つのニューラルアーキテクチャに対して、チョムスキー階層の様々な言語について結果を提供する。
我々の貢献は、将来の研究において、言語認識の主張を理論的に健全に検証するのに役立つだろう。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - Incorporating Constituent Syntax for Coreference Resolution [50.71868417008133]
本稿では,構成構文構造をグラフベースで組み込む手法を提案する。
また、高次近傍情報を利用して構成木に富んだ構造をエンコードすることも検討する。
on the English and Chinese parts of OntoNotes 5.0 benchmark shows that our proposed model beats a strong baseline or a new-of-the-art performance。
論文 参考訳(メタデータ) (2022-02-22T07:40:42Z) - The Limitations of Limited Context for Constituency Parsing [27.271792317099045]
Shen et al., 2018a)の構文解析アーキテクチャは、教師なし構文解析を最初に行った。
現在の構文に対するニューラルアプローチはどのような構文構造を表現できるのか?
我々は確率論的自由文法(PCFG)のサンドボックスにこの疑問を解いた。
これらのアプローチの表現力の重要な側面は、予測者がアクセス可能なコンテキストの量と方向性である。
論文 参考訳(メタデータ) (2021-06-03T03:58:35Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Applying Occam's Razor to Transformer-Based Dependency Parsing: What
Works, What Doesn't, and What is Really Necessary [9.347252855045125]
我々は,事前学習した埋め込みの選択と,グラフベースの依存性スキームでLSTM層を使用するかどうかについて検討する。
我々は,12言語中10言語に対して,新しい最先端の成果(LAS)を実現するため,シンプルだが広く適用可能なアーキテクチャと構成を提案する。
論文 参考訳(メタデータ) (2020-10-23T22:58:26Z) - Evaluating the reliability of acoustic speech embeddings [10.5754802112615]
音声埋め込みは可変長音声列の定サイズ音響表現である。
ここでは,ABX識別と平均精度 (MAP) という2つの一般的な指標を,17の埋め込み手法にまたがる5つの言語で体系的に比較する。
ABXとMAPは相互に相関し,周波数推定を行う。
論文 参考訳(メタデータ) (2020-07-27T13:24:09Z) - pyBART: Evidence-based Syntactic Transformations for IE [52.93947844555369]
pyBARTは、英語のUD木を拡張UDグラフに変換するためのオープンソースのPythonライブラリである。
パターンに基づく関係抽出のシナリオで評価すると、より少ないパターンを必要としながら、より高精細なUDよりも高い抽出スコアが得られる。
論文 参考訳(メタデータ) (2020-05-04T07:38:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。