論文の概要: Multi-Intent Recognition in Dialogue Understanding: A Comparison Between Smaller Open-Source LLMs
- arxiv url: http://arxiv.org/abs/2509.10010v1
- Date: Fri, 12 Sep 2025 07:10:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.999683
- Title: Multi-Intent Recognition in Dialogue Understanding: A Comparison Between Smaller Open-Source LLMs
- Title(参考訳): 対話理解におけるマルチインテント認識:より小さなオープンソースLLMの比較
- Authors: Adnan Ahmad, Philine Kowol, Stefan Hillmann, Sebastian Möller,
- Abstract要約: 対話システム領域のベンチマークであるMultiWOZ 2.1データセットを用いて,3つのオープンソース事前学習LCMの有効性について検討する。
数ショットのセットアップで分類タスクを実行し、インプロンプトで20の例をインプロンプトで示す。
また,Mistral-7B-v0.1 は F-Score の点において,14 の内 11 の意図クラスにおいて,他の 2 つの生成モデルよりも優れていた。
- 参考スコア(独自算出の注目度): 6.6893292050680655
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we provide an extensive analysis of multi-label intent classification using Large Language Models (LLMs) that are open-source, publicly available, and can be run in consumer hardware. We use the MultiWOZ 2.1 dataset, a benchmark in the dialogue system domain, to investigate the efficacy of three popular open-source pre-trained LLMs, namely LLama2-7B-hf, Mistral-7B-v0.1, and Yi-6B. We perform the classification task in a few-shot setup, giving 20 examples in the prompt with some instructions. Our approach focuses on the differences in performance of these models across several performance metrics by methodically assessing these models on multi-label intent classification tasks. Additionally, we compare the performance of the instruction-based fine-tuning approach with supervised learning using the smaller transformer model BertForSequenceClassification as a baseline. To evaluate the performance of the models, we use evaluation metrics like accuracy, precision, and recall as well as micro, macro, and weighted F1 score. We also report the inference time, VRAM requirements, etc. The Mistral-7B-v0.1 outperforms two other generative models on 11 intent classes out of 14 in terms of F-Score, with a weighted average of 0.50. It also has relatively lower Humming Loss and higher Jaccard Similarity, making it the winning model in the few-shot setting. We find BERT based supervised classifier having superior performance compared to the best performing few-shot generative LLM. The study provides a framework for small open-source LLMs in detecting complex multi-intent dialogues, enhancing the Natural Language Understanding aspect of task-oriented chatbots.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) を用いた多言語インテント分類の広範な解析を行う。
対話システム領域のベンチマークであるMultiWOZ 2.1データセットを用いて,LLama2-7B-hf,Mistral-7B-v0.1,Yi-6Bの3つのオープンソース事前学習LCMの有効性について検討する。
数ショットのセットアップで分類タスクを実行し、インプロンプトで20の例をインプロンプトで示す。
提案手法は,複数の性能指標にまたがるモデルの性能差に着目し,これらのモデルを複数ラベルの意図的分類タスクで定量的に評価する。
さらに、命令ベースの微調整手法と、より小さな変換器モデルであるBertForSequenceClassificationをベースラインとして教師あり学習との比較を行った。
モデルの性能評価には,マイクロ,マクロ,重み付きF1スコアに加えて,精度,精度,リコールなどの評価指標を用いる。
また、推測時間やVRAM要件などを報告します。
Mistral-7B-v0.1 は F-Score の点で 14 の意図クラスのうち 11 の意図クラスで 2 つの生成モデルより優れており、重み付き平均は 0.50 である。
また、ハミング・ロスは比較的低く、ジャカード・類似度も高く、数ショットで勝利したモデルとなっている。
BERTをベースとした教師付き分類器は,最も優れた数ショット生成型LLMに比べて優れた性能を示した。
本研究は,タスク指向チャットボットの自然言語理解的側面を強化し,複雑な多言語対話を検出するための,小規模なオープンソースLLMのためのフレームワークを提供する。
関連論文リスト
- Constructing Domain-Specific Evaluation Sets for LLM-as-a-judge [15.980606104936365]
大規模言語モデル(LLM)は機械学習のランドスケープに革命をもたらしたが、現在のベンチマークは現実世界のアプリケーションでこれらのモデルの多様な振る舞いを捉えるのに不足していることが多い。
Alpaca-Eval 2.0 LC referenceubois2024length controlledalpacaevalsimpleway や Arena-Hard v0.1 citeli2024crowdsourced のような既存のフレームワークは、汎用的なクエリと法、医学、多言語コンテキストといったドメイン間の多様性の欠如によって制限されている。
LLM-asに適したドメイン固有の評価セットをキュレートする新しいデータパイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-16T15:41:43Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Large Language Model-guided Document Selection [23.673690115025913]
大規模言語モデル(LLM)の事前学習は、ますます増加する計算予算を消費する。
近年の研究では、ドキュメントの選択がFLOPのごく一部で同等のモデル品質を実現することが実証されている。
拡張性のある汎用ドメイン文書選択のための有望な方向を探究する。
論文 参考訳(メタデータ) (2024-06-07T04:52:46Z) - Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。