論文の概要: Cost-Effective In-Context Learning for Entity Resolution: A Design Space
Exploration
- arxiv url: http://arxiv.org/abs/2312.03987v1
- Date: Thu, 7 Dec 2023 02:09:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 16:27:29.865499
- Title: Cost-Effective In-Context Learning for Entity Resolution: A Design Space
Exploration
- Title(参考訳): エンティティ解決のためのコスト効果のあるインコンテキスト学習:設計空間探索
- Authors: Meihao Fan and Xiaoyue Han and Ju Fan and Chengliang Chai and Nan Tang
and Guoliang Li and Xiaoyong Du
- Abstract要約: 本稿では,ERに対する費用対効果のあるバッチプロンプト手法の開発方法について,総合的研究を行う。
PLMに基づく手法と比較して,バッチプロンプトはERにとって非常に費用対効果が高いことが判明した。
また,マッチング精度と金銭的コストのバランスを効果的に整えるための包括的実証選択戦略も考案した。
- 参考スコア(独自算出の注目度): 26.65259285701739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entity resolution (ER) is an important data integration task with a wide
spectrum of applications. The state-of-the-art solutions on ER rely on
pre-trained language models (PLMs), which require fine-tuning on a lot of
labeled matching/non-matching entity pairs. Recently, large languages models
(LLMs), such as GPT-4, have shown the ability to perform many tasks without
tuning model parameters, which is known as in-context learning (ICL) that
facilitates effective learning from a few labeled input context demonstrations.
However, existing ICL approaches to ER typically necessitate providing a task
description and a set of demonstrations for each entity pair and thus have
limitations on the monetary cost of interfacing LLMs. To address the problem,
in this paper, we provide a comprehensive study to investigate how to develop a
cost-effective batch prompting approach to ER. We introduce a framework BATCHER
consisting of demonstration selection and question batching and explore
different design choices that support batch prompting for ER. We also devise a
covering-based demonstration selection strategy that achieves an effective
balance between matching accuracy and monetary cost. We conduct a thorough
evaluation to explore the design space and evaluate our proposed strategies.
Through extensive experiments, we find that batch prompting is very
cost-effective for ER, compared with not only PLM-based methods fine-tuned with
extensive labeled data but also LLM-based methods with manually designed
prompting. We also provide guidance for selecting appropriate design choices
for batch prompting.
- Abstract(参考訳): エンティティ解決(ER)は、幅広いアプリケーションを持つ重要なデータ統合タスクである。
ERの最先端ソリューションは事前訓練された言語モデル(PLM)に依存しており、多くのラベル付きマッチング/非マッチングエンティティペアを微調整する必要がある。
近年,GPT-4のような大規模言語モデル (LLM) では,いくつかのラベル付き入力コンテキストのデモから効果的な学習を容易にするICL (In-context Learning) と呼ばれるモデルパラメータをチューニングすることなく,多数のタスクを実行する能力を示している。
しかしながら、ERへの既存のICLアプローチは、通常、各エンティティペアに対してタスク記述とデモセットを提供することを必要とし、そのため、LLMと対向する金銭的コストに制限がある。
この問題に対処するため,本稿では,ERに対する費用対効果のあるバッチプロンプト手法の開発方法について,包括的に検討する。
実演選択と質問バッチからなるフレームワークBATCHERを導入し,ERのバッチプロンプトをサポートする設計選択について検討する。
また,マッチング精度と金融コストのバランスを効果的に両立する,カバーベースデモ選択戦略も考案した。
我々は,設計空間を探索し,提案する戦略を評価するために,徹底的な評価を行う。
大規模な実験により, バッチプロンプトは, 広範囲なラベル付きデータで微調整されたPLM法だけでなく, 手作業で設計したLPM法と比較して, ERにとって非常に費用対効果が高いことがわかった。
また、バッチプロンプトに適した設計選択を選択するためのガイダンスも提供します。
関連論文リスト
- Large Language Models Know What Makes Exemplary Contexts [42.90814615222177]
In-context Learning (ICL) は、Large Language Model (LLM) の発展において重要な機能であることが証明されている。
本稿では,LLMのための統合フレームワークを提案する。このフレームワークにより,影響力のあるインコンテキストのサンプルを自己選択してコンテキストを構成することができる。
論文 参考訳(メタデータ) (2024-08-14T12:32:41Z) - Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。
既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文 参考訳(メタデータ) (2024-05-25T08:23:05Z) - ParaICL: Towards Robust Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。
インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。
パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-31T05:56:15Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - On Leveraging Large Language Models for Enhancing Entity Resolution: A Cost-efficient Approach [7.996010840316654]
本稿では,Large Language Models (LLMs) を用いた不確実性低減フレームワークを提案する。
LLMは、先進的な言語能力と、広範なデータサイエンスの専門知識を持たない人々に対して大きな利点をもたらす「従量制」モデルに便乗している。
我々は,本手法が効率的かつ効果的であることを示し,実世界のタスクに有望な応用を提供する。
論文 参考訳(メタデータ) (2024-01-07T09:06:58Z) - Mastering the Task of Open Information Extraction with Large Language
Models and Consistent Reasoning Environment [52.592199835286394]
オープン情報抽出(OIE)は、自然文から客観的な構造化された知識を抽出することを目的としている。
大規模言語モデル(LLM)は、テキスト内学習能力に優れています。
論文 参考訳(メタデータ) (2023-10-16T17:11:42Z) - Cost-Efficient Prompt Engineering for Unsupervised Entity Resolution [2.6080756513915824]
エンティティ分解(ER)は、2つのエンティティが同じ基礎エンティティをいつ参照するかを半自動決定する問題である。
最近の大規模言語モデル(LLM)はERをよりシームレスでドメインに依存しないものにする機会を提供する。
比較的単純で費用効率のよいERプロンプトエンジニアリング手法を検討し、2つの実世界のデータセット上でERに適用する。
論文 参考訳(メタデータ) (2023-10-09T21:57:07Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented
Dialog Systems [56.302581679816775]
本稿では,タスク固有の命令でPLMを利用する包括的インストラクション(CINS)を提案する。
命令のスキーマ(定義、制約、プロンプト)と、ToDの3つの重要な下流タスクに対するカスタマイズされた実現を設計する。
これらのToDタスクに対して,小さな検証データを用いた現実的な数ショット学習シナリオで実験を行った。
論文 参考訳(メタデータ) (2021-09-10T03:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。