論文の概要: Large Language Model Is Not a Good Few-shot Information Extractor, but a
Good Reranker for Hard Samples!
- arxiv url: http://arxiv.org/abs/2303.08559v2
- Date: Sat, 21 Oct 2023 14:44:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 13:26:03.778914
- Title: Large Language Model Is Not a Good Few-shot Information Extractor, but a
Good Reranker for Hard Samples!
- Title(参考訳): 大型の言語モデルは、あまり良くない情報エクストラクタだが、ハードサンプルのための良いリランカだ!
- Authors: Yubo Ma, Yixin Cao, YongChing Hong, Aixin Sun
- Abstract要約: 大きな言語モデル(LLM)は、様々なタスクにおいて顕著な進歩を遂げています。
その結果,従来のLCMは微調整SLMに比べて性能が劣り,レイテンシが高く,予算要求も増大していることがわかった。
LLMの強度とSLMの強度を結合する適応フィルタ-then-rerankパラダイムを提案する。
- 参考スコア(独自算出の注目度): 43.51393135075126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have made remarkable strides in various tasks.
Whether LLMs are competitive few-shot solvers for information extraction (IE)
tasks, however, remains an open problem. In this work, we aim to provide a
thorough answer to this question. Through extensive experiments on nine
datasets across four IE tasks, we demonstrate that current advanced LLMs
consistently exhibit inferior performance, higher latency, and increased budget
requirements compared to fine-tuned SLMs under most settings. Therefore, we
conclude that LLMs are not effective few-shot information extractors in
general. Nonetheless, we illustrate that with appropriate prompting strategies,
LLMs can effectively complement SLMs and tackle challenging samples that SLMs
struggle with. And moreover, we propose an adaptive filter-then-rerank paradigm
to combine the strengths of LLMs and SLMs. In this paradigm, SLMs serve as
filters and LLMs serve as rerankers. By prompting LLMs to rerank a small
portion of difficult samples identified by SLMs, our preliminary system
consistently achieves promising improvements (2.4% F1-gain on average) on
various IE tasks, with an acceptable time and cost investment.
- Abstract(参考訳): 大きな言語モデル(LLM)は、様々なタスクにおいて顕著な進歩を遂げています。
しかし、LLMが情報抽出(IE)タスクの競合的な数ショットソルバであるかどうかは未解決の問題である。
本研究は,この問題に対する完全な回答の提供を目的としている。
4つのieタスクにまたがる9つのデータセットに関する広範な実験を通じて、現在の高度なllmは、ほとんどの設定で微調整されたslmと比較して、性能、レイテンシ、および予算要件が一貫して劣っていることを実証する。
したがって,LLMは一般的には実効的な少数ショット情報抽出器ではない。
それでも、適切なプロンプト戦略により、LSMはSLMを効果的に補完し、SLMが抱える挑戦的なサンプルに取り組むことができる。
さらに,LLM と SLM の長所を結合する適応型フィルタ-then-rerank パラダイムを提案する。
このパラダイムでは、slmはフィルタとして、llmはリランクとして機能する。
SLMによって特定される難しいサンプルのごく一部をLCMにリランクさせるように促すことで、我々の予備的システムは、様々なIEタスクにおける有望な改善(2.4%のF1ゲイン)を、許容時間とコストの投資で継続的に達成する。
関連論文リスト
- Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization [12.885866125783618]
大規模言語モデル(LLM)は、特定のクエリに対する不正確な応答を生成する傾向がある。
我々は, LLMのトークン化に挑戦するために, $textbfADT (TokenizerのAdrial dataset)$という逆データセットを構築した。
GPT-4o, Llama-3, Qwen2.5-maxなど, 先進LLMのトークン化に挑戦する上で, 当社のADTは極めて有効であることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-27T11:39:59Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - REQUAL-LM: Reliability and Equity through Aggregation in Large Language Models [10.684722193666607]
本稿では,信頼度の高い大規模言語モデル (LLM) の出力をアグリゲーションによって検出する新しい手法であるREQUAL-LMを紹介する。
具体的には、繰り返しサンプリングに基づくモンテカルロ法を開発し、可能な出力の基底分布の平均に近い信頼性のある出力を求める。
信頼性とバイアスといった用語を正式に定義し、信頼性の高いアウトプットを見つけながら有害なバイアスを最小限に抑えるために、株式を意識したアグリゲーションを設計する。
論文 参考訳(メタデータ) (2024-04-17T22:12:41Z) - OPDAI at SemEval-2024 Task 6: Small LLMs can Accelerate Hallucination
Detection with Weakly Supervised Data [1.3981625092173873]
本稿では,LLMの幻覚検出システムについて述べる。
SemEval-2024 Task 6のモデル非依存トラックで2位を獲得した。
論文 参考訳(メタデータ) (2024-02-20T11:01:39Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Small Language Models Improve Giants by Rewriting Their Outputs [18.025736098795296]
本研究では,大規模言語モデル(LLM)の性能向上にトレーニングデータを活用するという課題に,微調整なしで対処する。
我々は、数発のプロンプトによってLSMから候補のプールを作成し、コンパクトモデルLM-corrector(LMCor)を用いて、これらの候補をマージして拡張出力を生成するように特別に訓練した。
4つの自然言語生成タスクの実験により、小さな LMCor モデル (250M) でさえ、LLM (62B) の少数ショット性能を大幅に改善し、マッチングや標準微調整よりも優れることを示した。
論文 参考訳(メタデータ) (2023-05-22T22:07:50Z) - Validating Large Language Models with ReLM [11.552979853457117]
大規模言語モデル(LLM)は、自然に聞こえるテキストを生成する能力があるとして、高く評価されている。
データ記憶、バイアス、不適切な言語など、LLMのネガティブな影響に関する懸念が高まっている。
本稿では,標準正規表現を用いたLLMの検証・クエリシステムであるReLMを紹介する。
論文 参考訳(メタデータ) (2022-11-21T21:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。