論文の概要: Multi-Intent Recognition in Dialogue Understanding: A Comparison Between Smaller Open-Source LLMs
- arxiv url: http://arxiv.org/abs/2509.10010v1
- Date: Fri, 12 Sep 2025 07:10:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.999683
- Title: Multi-Intent Recognition in Dialogue Understanding: A Comparison Between Smaller Open-Source LLMs
- Title(参考訳): 対話理解におけるマルチインテント認識:より小さなオープンソースLLMの比較
- Authors: Adnan Ahmad, Philine Kowol, Stefan Hillmann, Sebastian Möller,
- Abstract要約: 対話システム領域のベンチマークであるMultiWOZ 2.1データセットを用いて,3つのオープンソース事前学習LCMの有効性について検討する。
数ショットのセットアップで分類タスクを実行し、インプロンプトで20の例をインプロンプトで示す。
また,Mistral-7B-v0.1 は F-Score の点において,14 の内 11 の意図クラスにおいて,他の 2 つの生成モデルよりも優れていた。
- 参考スコア(独自算出の注目度): 6.6893292050680655
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we provide an extensive analysis of multi-label intent classification using Large Language Models (LLMs) that are open-source, publicly available, and can be run in consumer hardware. We use the MultiWOZ 2.1 dataset, a benchmark in the dialogue system domain, to investigate the efficacy of three popular open-source pre-trained LLMs, namely LLama2-7B-hf, Mistral-7B-v0.1, and Yi-6B. We perform the classification task in a few-shot setup, giving 20 examples in the prompt with some instructions. Our approach focuses on the differences in performance of these models across several performance metrics by methodically assessing these models on multi-label intent classification tasks. Additionally, we compare the performance of the instruction-based fine-tuning approach with supervised learning using the smaller transformer model BertForSequenceClassification as a baseline. To evaluate the performance of the models, we use evaluation metrics like accuracy, precision, and recall as well as micro, macro, and weighted F1 score. We also report the inference time, VRAM requirements, etc. The Mistral-7B-v0.1 outperforms two other generative models on 11 intent classes out of 14 in terms of F-Score, with a weighted average of 0.50. It also has relatively lower Humming Loss and higher Jaccard Similarity, making it the winning model in the few-shot setting. We find BERT based supervised classifier having superior performance compared to the best performing few-shot generative LLM. The study provides a framework for small open-source LLMs in detecting complex multi-intent dialogues, enhancing the Natural Language Understanding aspect of task-oriented chatbots.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) を用いた多言語インテント分類の広範な解析を行う。
対話システム領域のベンチマークであるMultiWOZ 2.1データセットを用いて,LLama2-7B-hf,Mistral-7B-v0.1,Yi-6Bの3つのオープンソース事前学習LCMの有効性について検討する。
数ショットのセットアップで分類タスクを実行し、インプロンプトで20の例をインプロンプトで示す。
提案手法は,複数の性能指標にまたがるモデルの性能差に着目し,これらのモデルを複数ラベルの意図的分類タスクで定量的に評価する。
さらに、命令ベースの微調整手法と、より小さな変換器モデルであるBertForSequenceClassificationをベースラインとして教師あり学習との比較を行った。
モデルの性能評価には,マイクロ,マクロ,重み付きF1スコアに加えて,精度,精度,リコールなどの評価指標を用いる。
また、推測時間やVRAM要件などを報告します。
Mistral-7B-v0.1 は F-Score の点で 14 の意図クラスのうち 11 の意図クラスで 2 つの生成モデルより優れており、重み付き平均は 0.50 である。
また、ハミング・ロスは比較的低く、ジャカード・類似度も高く、数ショットで勝利したモデルとなっている。
BERTをベースとした教師付き分類器は,最も優れた数ショット生成型LLMに比べて優れた性能を示した。
本研究は,タスク指向チャットボットの自然言語理解的側面を強化し,複雑な多言語対話を検出するための,小規模なオープンソースLLMのためのフレームワークを提供する。
関連論文リスト
- Learning to Trust the Crowd: A Multi-Model Consensus Reasoning Engine for Large Language Models [0.0]
大規模言語モデル(LLM)は平均年齢のパフォーマンスは高いが、インスタンスレベルでは信頼性が低い。
本稿では,LLM出力の集合を教師付きメタラーナへの入力として扱うマルチモデル・コンセンサス・推論エンジンを提案する。
このシステムは、自然言語の応答をセマンティックな埋め込み、ペアの類似性とクラスタリング統計、語彙的および構造的手がかり、推論品質スコア、信頼度推定、モデル固有の事前情報を用いて構造化された特徴にマッピングする。
論文 参考訳(メタデータ) (2026-01-12T06:27:06Z) - Can LLM Annotations Replace User Clicks for Learning to Rank? [112.2254432364736]
大規模な教師付きデータは最新のランキングモデルのトレーニングには不可欠だが、高品質な人的アノテーションの取得にはコストがかかる。
クリックデータは低コストの代替手段として広く使われており、近年の大規模言語モデル(LLM)の発展に伴い、LLMベースの関連アノテーションも有望なアノテーションとして登場した。
公開データセットであるTianGong-STと、産業データセットであるBaidu-Clickの両方の実験は、クリック管理モデルが高周波クエリでより良いパフォーマンスを示すことを示している。
データスケジューリングと周波数対応多目的学習という2つのトレーニング戦略を検討し、両方の監視信号を統合する。
論文 参考訳(メタデータ) (2025-11-10T02:26:14Z) - Multi-MLLM Knowledge Distillation for Out-of-Context News Detection [17.41734069411864]
マルチモーダル・アウト・オブ・コンテクスト・ニュース(Multimodal out-of-context news)は、画像が元の文脈以外で使用される誤報の一種である。
本稿では,この知識を学生MLLMに伝達するための2段階の知識蒸留フレームワークを提案する。
ステージ1では、すべてのトレーニングデータを用いて、LoRAの微調整を学生モデルに適用する。
ステージ2では、教師の予測が矛盾するデータポイント上で、LoRAファインタニングとDPOの両方を用いて、学生モデルをさらに微調整する。
論文 参考訳(メタデータ) (2025-05-28T16:03:41Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Constructing Domain-Specific Evaluation Sets for LLM-as-a-judge [15.980606104936365]
大規模言語モデル(LLM)は機械学習のランドスケープに革命をもたらしたが、現在のベンチマークは現実世界のアプリケーションでこれらのモデルの多様な振る舞いを捉えるのに不足していることが多い。
Alpaca-Eval 2.0 LC referenceubois2024length controlledalpacaevalsimpleway や Arena-Hard v0.1 citeli2024crowdsourced のような既存のフレームワークは、汎用的なクエリと法、医学、多言語コンテキストといったドメイン間の多様性の欠如によって制限されている。
LLM-asに適したドメイン固有の評価セットをキュレートする新しいデータパイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-16T15:41:43Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Large Language Model-guided Document Selection [23.673690115025913]
大規模言語モデル(LLM)の事前学習は、ますます増加する計算予算を消費する。
近年の研究では、ドキュメントの選択がFLOPのごく一部で同等のモデル品質を実現することが実証されている。
拡張性のある汎用ドメイン文書選択のための有望な方向を探究する。
論文 参考訳(メタデータ) (2024-06-07T04:52:46Z) - Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。