論文の概要: CodeNER: Code Prompting for Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2507.20423v1
- Date: Sun, 27 Jul 2025 21:49:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.668006
- Title: CodeNER: Code Prompting for Named Entity Recognition
- Title(参考訳): CodeNER: 名前付きエンティティ認識のためのコードプロンプト
- Authors: Sungwoo Han, Hyeyeon Kim, Jingun Kwon, Hidetaka Kamigaito, Manabu Okumura,
- Abstract要約: 実験の結果,提案手法は,英語,アラビア語,フィンランド語,デンマーク語,ドイツ語の10つのベンチマークにおいて,従来のテキストベースのプロンプトよりも優れていた。
また,提案したコードベースプロンプトとチェーン・オブ・シークレットを組み合わせることで,性能がさらに向上することを確認した。
- 参考スコア(独自算出の注目度): 25.41171856955819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have explored various approaches for treating candidate named entity spans as both source and target sequences in named entity recognition (NER) by leveraging large language models (LLMs). Although previous approaches have successfully generated candidate named entity spans with suitable labels, they rely solely on input context information when using LLMs, particularly, ChatGPT. However, NER inherently requires capturing detailed labeling requirements with input context information. To address this issue, we propose a novel method that leverages code-based prompting to improve the capabilities of LLMs in understanding and performing NER. By embedding code within prompts, we provide detailed BIO schema instructions for labeling, thereby exploiting the ability of LLMs to comprehend long-range scopes in programming languages. Experimental results demonstrate that the proposed code-based prompting method outperforms conventional text-based prompting on ten benchmarks across English, Arabic, Finnish, Danish, and German datasets, indicating the effectiveness of explicitly structuring NER instructions. We also verify that combining the proposed code-based prompting method with the chain-of-thought prompting further improves performance.
- Abstract(参考訳): 近年,大言語モデル(LLM)を活用して,名前付きエンティティ認識(NER)のソースおよびターゲットシーケンスとして,候補名付きエンティティスパンを扱うための様々なアプローチが検討されている。
従来の手法では、候補名を持つエンティティを適切なラベルで分割することに成功したが、LLM(特にChatGPT)を使用する場合、入力コンテキスト情報のみに依存する。
しかし、NERは本質的には、入力コンテキスト情報を用いて詳細なラベル付け要求をキャプチャする必要がある。
この問題に対処するために,コードベースのプロンプトを利用して,NERの理解と実行におけるLLMの能力を向上させる手法を提案する。
プロンプト内にコードを埋め込むことで、ラベル付けのための詳細なBIOスキーマ命令を提供することで、LLMがプログラミング言語の長距離スコープを理解する能力を利用することができる。
実験結果から,提案手法は,英語,アラビア語,フィンランド語,デンマーク語,ドイツ語の10つのベンチマークにおいて,従来のテキストベースのプロンプトよりも優れており,NER命令を明示的に構造化する効果が示された。
また,提案したコードベースプロンプトとチェーン・オブ・シークレットを組み合わせることで,性能がさらに向上することを確認した。
関連論文リスト
- Label-Guided In-Context Learning for Named Entity Recognition [14.63059248497416]
In-context Learning (ICL) では、大規模な言語モデルで新しいタスクを実行することができる。
トークンレベルの統計情報を用いてトレーニングラベルを活用する新しい手法であるDEERを導入し、ICLの性能を向上させる。
論文 参考訳(メタデータ) (2025-05-29T17:54:32Z) - Pragmatic Reasoning improves LLM Code Generation [35.78260347663757]
我々は,Rational Speech Act (RSA) フレームワーク上に構築された新しいコード候補付け機構であるCodeRSAを提案する。
我々は、人気のあるコード生成データセット上で、最新のLarge Language Modelの1つを用いてCodeRSAを評価する。
論文 参考訳(メタデータ) (2025-02-20T12:44:26Z) - Enhancing Item Tokenization for Generative Recommendation through Self-Improvement [67.94240423434944]
生成レコメンデーションシステムは大規模言語モデル(LLM)によって駆動される
現在のアイテムトークン化手法には、テキスト記述、数値文字列、離散トークンのシーケンスの使用が含まれる。
自己改善アイテムトークン化手法を提案し,LLMがトレーニングプロセス中に独自のアイテムトークン化を洗練できるようにする。
論文 参考訳(メタデータ) (2024-12-22T21:56:15Z) - TokenRec: Learning to Tokenize ID for LLM-based Generative Recommendation [16.93374578679005]
TokenRecは、大規模言語モデル(LLM)ベースのRecommender Systems(RecSys)のトークン化と検索のための新しいフレームワークである。
我々の戦略であるMasked Vector-Quantized (MQ) Tokenizerは、協調フィルタリングから学んだマスキングされたユーザ/イテム表現を離散トークンに定量化する。
我々の生成的検索パラダイムは,自動回帰復号処理やビーム検索処理の不要さを解消するために,ユーザに対してKドル以上のアイテムを効率的に推奨するように設計されている。
論文 参考訳(メタデータ) (2024-06-15T00:07:44Z) - Learnable Item Tokenization for Generative Recommendation [78.30417863309061]
LETTER (Larnable Tokenizer for generaTivE Recommendation) を提案する。
LETTERは、セマンティック正規化のためのResidual Quantized VAE、協調正規化のためのコントラストアライメント損失、コードの割り当てバイアスを軽減するための多様性損失を組み込んでいる。
論文 参考訳(メタデータ) (2024-05-12T15:49:38Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保持するために追加情報を挿入する。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Prompt-based Text Entailment for Low-Resource Named Entity Recognition [21.017890579840145]
低リソースなエンティティ認識のためのPTE(Prompt-based Text Entailment)を提案する。
提案手法は,CoNLL03データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-11-06T06:13:38Z) - Focusing on Potential Named Entities During Active Label Acquisition [0.0]
名前付きエンティティ認識(NER)は、構造化されていないテキスト中の名前付きエンティティの参照を識別することを目的としている。
多くのドメイン固有のNERアプリケーションは、まだかなりの量のラベル付きデータを要求する。
本稿では,長すぎるか短すぎる文をペナル化するための,データ駆動正規化手法を提案する。
論文 参考訳(メタデータ) (2021-11-06T09:04:16Z) - KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimization
for Relation Extraction [111.74812895391672]
シナジスティック最適化(KnowPrompt)を用いた知識認識型Promptチューニング手法を提案する。
関係ラベルに含まれる潜在知識をインジェクトして,学習可能な仮想型語と解答語で構築する。
論文 参考訳(メタデータ) (2021-04-15T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。