論文の概要: Towards Probing Contact Center Large Language Models
- arxiv url: http://arxiv.org/abs/2312.15922v1
- Date: Tue, 26 Dec 2023 07:34:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 15:47:18.447078
- Title: Towards Probing Contact Center Large Language Models
- Title(参考訳): コンタクトセンター大言語モデルの構築に向けて
- Authors: Varun Nathan, Ayush Kumar, Digvijay Ingle and Jithendra Vepa
- Abstract要約: ドメイン固有命令を用いた微調整型大規模言語モデル (LLM) が, ドメイン固有理解を高める効果的な方法として登場した。
我々は,OB (out-of-the-box) LLM (OB) LLM) を用いたコンタクトセンタ(CC) 固有の微調整LDMの基本的な特性をベンチマークする。
その結果,OCB-LLMよりも応答受容性が48%以上向上し,ドメイン内下流タスクに対するCC-LLMsの顕著な効果が示された。
- 参考スコア(独自算出の注目度): 11.018095513653758
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Fine-tuning large language models (LLMs) with domain-specific instructions
has emerged as an effective method to enhance their domain-specific
understanding. Yet, there is limited work that examines the core
characteristics acquired during this process. In this study, we benchmark the
fundamental characteristics learned by contact-center (CC) specific instruction
fine-tuned LLMs with out-of-the-box (OOB) LLMs via probing tasks encompassing
conversational, channel, and automatic speech recognition (ASR) properties. We
explore different LLM architectures (Flan-T5 and Llama), sizes (3B, 7B, 11B,
13B), and fine-tuning paradigms (full fine-tuning vs PEFT). Our findings reveal
remarkable effectiveness of CC-LLMs on the in-domain downstream tasks, with
improvement in response acceptability by over 48% compared to OOB-LLMs.
Additionally, we compare the performance of OOB-LLMs and CC-LLMs on the widely
used SentEval dataset, and assess their capabilities in terms of surface,
syntactic, and semantic information through probing tasks. Intriguingly, we
note a relatively consistent performance of probing classifiers on the set of
probing tasks. Our observations indicate that CC-LLMs, while outperforming
their out-of-the-box counterparts, exhibit a tendency to rely less on encoding
surface, syntactic, and semantic properties, highlighting the intricate
interplay between domain-specific adaptation and probing task performance
opening up opportunities to explore behavior of fine-tuned language models in
specialized contexts.
- Abstract(参考訳): ドメイン固有命令を用いた微調整型大規模言語モデル(LLM)が,ドメイン固有理解を高める効果的な方法として登場した。
しかし、このプロセスで得られたコア特性を調べる作業は限られている。
本研究では,対話型,チャネル型,自動音声認識(ASR)特性を含む探索タスクを用いて,接触中心(CC)特定命令微調整LDMから学習した基本的特徴をベンチマークする。
異なるLLMアーキテクチャ(Flan-T5とLlama)、サイズ(3B, 7B, 11B, 13B)、微調整パラダイム(完全微調整とPEFT)について検討する。
その結果,OCB-LLMよりも応答受容性が48%以上向上し,ドメイン内下流タスクに対するCC-LLMsの顕著な効果が示された。
さらに,広く使用されているセンチバルデータセットにおけるoob-llmsとcc-llmsの性能を比較し,表面的,構文的,意味的情報を探索タスクを通して評価する。
興味深いことに、探索タスクのセットにおける分類器の相対的に一貫した性能に注目する。
この結果から, CC-LLMは, 符号化面, 構文, 意味的特性に依存しない傾向を示し, ドメイン固有適応と探索タスク性能の複雑な相互作用が強調され, 特定の文脈における微調整言語モデルの振る舞いを探求する機会が開かれた。
関連論文リスト
- Improving In-Context Learning with Small Language Model Ensembles [2.3499129784547654]
In-context Learning (ICL) は安価で効率的な代替手段であるが、高度な手法の精度と一致しない。
本稿では,複数の微調整小言語モデル(SLM)の専門知識を活用することでICLを強化する新しいアプローチであるEnsemble SuperICLを提案する。
論文 参考訳(メタデータ) (2024-10-29T09:02:37Z) - Probing Ranking LLMs: Mechanistic Interpretability in Information Retrieval [22.875174888476295]
我々は最先端の微調整型変圧器ネットワークの動作について検討する。
我々のアプローチは、LLM内のニューロンの探索に基づく層間層解析である。
ネットワークのアクティベーションの中で、既知の人間工学的・意味的な特徴の個人またはグループを特定する。
論文 参考訳(メタデータ) (2024-10-24T08:20:10Z) - CLLMFS: A Contrastive Learning enhanced Large Language Model Framework for Few-Shot Named Entity Recognition [3.695767900907561]
CLLMFSは、Few-Shot Named Entity RecognitionのためのContrastive LearningEnhanced Large Language Modelフレームワークである。
Low-Rank Adaptation (LoRA)と、数発のNER用に特別に調整された対照的な学習メカニズムを統合している。
提案手法は,F1スコアの現行性能を2.58%から97.74%まで向上させた。
論文 参考訳(メタデータ) (2024-08-23T04:44:05Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - An Empirical Study of Automated Vulnerability Localization with Large Language Models [21.84971967029474]
大規模言語モデル(LLM)は、様々な領域において可能性を示しているが、脆弱性のローカライゼーションにおけるその有効性は未解明のままである。
本調査では,ChatGPTや各種オープンソースモデルなど,コード解析に適した10以上のLLMを対象とする。
ゼロショット学習,ワンショット学習,識別的微調整,生成的微調整の4つのパラダイムを用いて,これらのLCMの有効性を検討する。
論文 参考訳(メタデータ) (2024-03-30T08:42:10Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。