論文の概要: Contrastive Learning on LLM Back Generation Treebank for Cross-domain Constituency Parsing
- arxiv url: http://arxiv.org/abs/2505.20976v1
- Date: Tue, 27 May 2025 10:07:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.569922
- Title: Contrastive Learning on LLM Back Generation Treebank for Cross-domain Constituency Parsing
- Title(参考訳): クロスドメイン構成解析のためのLLMバックジェネレーションツリーバンクのコントラスト学習
- Authors: Peiming Guo, Meishan Zhang, Jianling Li, Min Zhang, Yue Zhang,
- Abstract要約: クロスドメイン選挙区解析は、計算言語学における未解決の課題である。
本稿では,新しい木バンク生成手法 LLM のバックジェネレーションを提案する。
提案手法は, 各種ベースラインと比較して, 平均結果における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 38.746554643280106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-domain constituency parsing is still an unsolved challenge in computational linguistics since the available multi-domain constituency treebank is limited. We investigate automatic treebank generation by large language models (LLMs) in this paper. The performance of LLMs on constituency parsing is poor, therefore we propose a novel treebank generation method, LLM back generation, which is similar to the reverse process of constituency parsing. LLM back generation takes the incomplete cross-domain constituency tree with only domain keyword leaf nodes as input and fills the missing words to generate the cross-domain constituency treebank. Besides, we also introduce a span-level contrastive learning pre-training strategy to make full use of the LLM back generation treebank for cross-domain constituency parsing. We verify the effectiveness of our LLM back generation treebank coupled with contrastive learning pre-training on five target domains of MCTB. Experimental results show that our approach achieves state-of-the-art performance on average results compared with various baselines.
- Abstract(参考訳): クロスドメイン選挙区解析は、利用可能なマルチドメイン選挙区木バンクが限られているため、計算言語学では未解決の課題である。
本稿では,大規模言語モデル(LLM)による木バンクの自動生成について検討する。
選挙区解析における LLM の性能は乏しいため,新しいツリーバンク生成手法 LLM のバックジェネレーションが提案され,これは選挙区解析の逆過程に類似している。
LLMバックジェネレーションは、ドメインキーワードのリーフノードのみを入力として不完全なクロスドメイン選挙区木を取り込み、行方不明の単語を埋めてクロスドメイン選挙区木バンクを生成する。
さらに,LLMバックジェネレーションツリーバンクをクロスドメイン構成解析にフル活用するための,スパンレベルのコントラスト学習事前学習戦略も導入した。
MCTBの5つの対象領域において,LLMバックジェネレーションツリーバンクとコントラスト学習事前学習の有効性を検証した。
実験結果から,本手法は,各種ベースラインと比較して,平均結果における最先端性能を達成できることが示唆された。
関連論文リスト
- HYPEROFA: Expanding LLM Vocabulary to New Languages via Hypernetwork-Based Embedding Initialization [50.27950279695363]
多くの事前訓練された言語モデル (PLM) は、中級言語と低級言語で最適な性能を示す。
これを解決するための一般的な戦略は、ターゲット言語固有の新しいトークンを導入し、埋め込みを初期化し、ターゲット言語データに連続的な事前トレーニングを適用することである。
より適応的なトークン埋め込みのためのハイパーネットワークベースのアプローチであるHYPEROFAを提案する。
論文 参考訳(メタデータ) (2025-04-21T19:40:32Z) - Towards Evaluating Large Language Models for Graph Query Generation [49.49881799107061]
大言語モデル(LLM)は、生成人工知能(GenAI)の景観に革命をもたらしている
本稿では,オープンアクセス LLM を用いてグラフデータベースと対話する強力な言語としてクエリを生成することの課題について比較検討する。
クエリ生成精度を実証的に分析したところ、Claude Sonnet 3.5は特定のドメインでそれよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-13T09:11:56Z) - Recursive Speculative Decoding: Accelerating LLM Inference via Sampling
Without Replacement [11.91629418177851]
投機的復号法(英: Speculative decoding)は、大規模言語モデルの推論・加速度法である。
近年の作業では、草稿の伐採によってこの方法が進歩している。
再帰的投機的復号法(Recursive Speculative Decoding:RSD)を提案する。
論文 参考訳(メタデータ) (2024-02-21T22:57:49Z) - Leveraging Code to Improve In-context Learning for Semantic Parsing [48.66031267718704]
In-context Learning (ICL) は、その少数ショットの性質と一般化の改善により、意味解析に魅力的なアプローチである。
我々は,(1)DSLの代わりにPythonなどの汎用プログラミング言語を用いた意味解析におけるICLの有効性を向上し,(2)ドメイン記述を構造化したプロンプトを増強する。
論文 参考訳(メタデータ) (2023-11-16T02:50:06Z) - LLM-enhanced Self-training for Cross-domain Constituency Parsing [41.56908438488128]
本稿では,大規模言語モデル(LLM)による自己学習の強化を提案し,ドメイン固有の生コーパスを反復的に生成する。
選挙区構文解析では,LLMが生コーパスを生成する際の文法規則を導入し,擬似インスタンスの選択基準を確立する。
論文 参考訳(メタデータ) (2023-11-05T14:13:29Z) - Constituency Parsing using LLMs [22.932447078664232]
選挙区解析は基本的だが未解決の自然言語処理タスクである。
出力木を記号列に変換するために3つの線形化戦略を用いており、LLMは線形化木を生成することで領域解析を解くことができる。
本研究では, LLMの性能, 一般化能力, 選挙区解析における課題について考察した。
論文 参考訳(メタデータ) (2023-10-30T11:39:11Z) - Cross-lingual Inflection as a Data Augmentation Method for Parsing [10.355938901584567]
対象のLR言語に類似した言語間(x-inflected)ツリーバンクを作成するために,対象のLR言語に対する形態的インフレクタをトレーニングし,関連するリッチリソースツリーバンクに適用する。
その結果、この手法は時々ベースラインを改善するが、一貫したものではないことが示された。
論文 参考訳(メタデータ) (2022-05-19T07:05:56Z) - Forest R-CNN: Large-Vocabulary Long-Tailed Object Detection and Instance
Segmentation [75.93960390191262]
我々は、オブジェクトカテゴリ間の関係に関する事前知識を利用して、きめ細かいクラスを粗い親クラスにクラスタリングする。
そこで本研究では,NMS再サンプリング法を提案する。
提案手法はフォレストR-CNNと呼ばれ,ほとんどのオブジェクト認識モデルに適用可能なプラグイン・アンド・プレイモジュールとして機能する。
論文 参考訳(メタデータ) (2020-08-13T03:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。