論文の概要: Enhancing Automatic Term Extraction with Large Language Models via Syntactic Retrieval
- arxiv url: http://arxiv.org/abs/2506.21222v1
- Date: Thu, 26 Jun 2025 13:14:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.090329
- Title: Enhancing Automatic Term Extraction with Large Language Models via Syntactic Retrieval
- Title(参考訳): 構文検索による大規模言語モデルによる自動項抽出の強化
- Authors: Yongchan Chun, Minhyuk Kim, Dongjun Kim, Chanjun Park, Heuiseok Lim,
- Abstract要約: 本稿では, 意味的類似性ではなく, エフェシンタクティック(enmphsyntactic)によるデモンストレーションを選択する検索ベースのプロンプト戦略を提案する。
クエリ文と検索した例の語彙的重なり合いがパフォーマンスに与える影響を解析し、ドメイン内設定とクロスドメイン設定の両方でアプローチを評価する。
- 参考スコア(独自算出の注目度): 7.767476858353642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Term Extraction (ATE) identifies domain-specific expressions that are crucial for downstream tasks such as machine translation and information retrieval. Although large language models (LLMs) have significantly advanced various NLP tasks, their potential for ATE has scarcely been examined. We propose a retrieval-based prompting strategy that, in the few-shot setting, selects demonstrations according to \emph{syntactic} rather than semantic similarity. This syntactic retrieval method is domain-agnostic and provides more reliable guidance for capturing term boundaries. We evaluate the approach in both in-domain and cross-domain settings, analyzing how lexical overlap between the query sentence and its retrieved examples affects performance. Experiments on three specialized ATE benchmarks show that syntactic retrieval improves F1-score. These findings highlight the importance of syntactic cues when adapting LLMs to terminology-extraction tasks.
- Abstract(参考訳): 自動用語抽出(ATE)は、機械翻訳や情報検索といった下流タスクに不可欠なドメイン固有表現を特定する。
大規模言語モデル(LLM)は様々なNLPタスクを大幅に進歩させたが、ATEの可能性はほとんど検討されていない。
本稿では, セマンティックな類似性ではなく, 「emph{syntactic}」 に従って実演を選択できる検索型プロンプト戦略を提案する。
この構文的検索方法はドメインに依存しず、項境界を捕捉するためのより信頼性の高いガイダンスを提供する。
クエリ文と検索した例の語彙的重なり合いがパフォーマンスに与える影響を解析し、ドメイン内設定とクロスドメイン設定の両方でアプローチを評価する。
3つの特別なATEベンチマークの実験では、構文的検索がF1スコアを改善することが示されている。
これらの結果は,LLMを用語抽出タスクに適応する上での構文的手がかりの重要性を浮き彫りにした。
関連論文リスト
- BehaviorBox: Automated Discovery of Fine-Grained Performance Differences Between Language Models [55.2480439325792]
本稿では,性能を考慮した文脈埋め込みを用いた言語モデルの自動比較手法を提案する。
提案手法は,2つのLM間の生成容易性について,その相違点を示すコヒーレントな特徴を抽出する。
本研究では,サイズ,モデルファミリ,ポストトレーニングの異なるモデルを比較し,コーパスレベルの難易度だけでは見つからないパフォーマンスの有意義な違いを示す,特定のコンテキストに対する洞察を列挙する。
論文 参考訳(メタデータ) (2025-06-02T19:44:06Z) - MINERS: Multilingual Language Models as Semantic Retrievers [23.686762008696547]
本稿では,意味検索タスクにおける多言語言語モデルの有効性を評価するためのベンチマークであるMINERSを紹介する。
我々は,200以上の多言語にわたるサンプルの検索において,LMの堅牢性を評価する包括的なフレームワークを構築した。
以上の結果から,意味論的に類似した埋め込みを検索することで,最先端のアプローチと競合する性能が得られることが示された。
論文 参考訳(メタデータ) (2024-06-11T16:26:18Z) - A Hybrid Approach To Aspect Based Sentiment Analysis Using Transfer Learning [3.30307212568497]
本稿では,移動学習を用いたアスペクトベース感性分析のためのハイブリッド手法を提案する。
このアプローチは、大きな言語モデル(LLM)と従来の構文的依存関係の両方の長所を利用して、弱い教師付きアノテーションを生成することに焦点を当てている。
論文 参考訳(メタデータ) (2024-03-25T23:02:33Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Revisiting Sparse Retrieval for Few-shot Entity Linking [33.15662306409253]
本稿では,ELECTRAに基づくキーワード抽出手法を提案する。
抽出器のトレーニングには,参照コンテキストとエンティティ記述との間に重複するトークンをベースとしたトレーニングデータを自動的に生成する遠隔監視手法を提案する。
ZESHELデータセットによる実験結果から,提案手法はすべてのテスト領域において,最先端モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-19T03:51:10Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Graph Adaptive Semantic Transfer for Cross-domain Sentiment
Classification [68.06496970320595]
クロスドメイン感情分類(CDSC)は、ソースドメインから学んだ伝達可能なセマンティクスを使用して、ラベルなしのターゲットドメインにおけるレビューの感情を予測することを目的としている。
本稿では、単語列と構文グラフの両方からドメイン不変セマンティクスを学習できる適応型構文グラフ埋め込み法であるグラフ適応意味伝達(GAST)モデルを提案する。
論文 参考訳(メタデータ) (2022-05-18T07:47:01Z) - Seed Words Based Data Selection for Language Model Adaptation [11.59717828860318]
本稿では,テキストコーパスから文を自動的に選択する手法を提案する。
ベースラインモデルの語彙は拡張・調整され、OOVレートが低下する。
異なる測定値(OOVレート, WER, 精度, リコール)を用いて, 提案手法の有効性を示す。
論文 参考訳(メタデータ) (2021-07-20T12:08:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。