論文の概要: Do Large Language Model Understand Multi-Intent Spoken Language ?
- arxiv url: http://arxiv.org/abs/2403.04481v3
- Date: Mon, 15 Apr 2024 16:24:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 22:46:16.352140
- Title: Do Large Language Model Understand Multi-Intent Spoken Language ?
- Title(参考訳): 大規模言語モデルは多言語音声言語を理解するか?
- Authors: Shangjian Yin, Peijie Huang, Yuhong Xu, Haojing Huang, Jiatian Chen,
- Abstract要約: この研究は、多言語言語理解(SLU)におけるLarge Language Models(LLM)の利用において、大きなブレークスルーを示すものである。
本稿では,マルチインテリジェントSLUアプリケーションにおけるエンティティスロットの利用について再検討する。
本稿では,複雑なマルチインテント通信の分析と解釈を増幅するために,サブインテントインストラクション(SII)の概念を導入する。
- 参考スコア(独自算出の注目度): 5.494472119991781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This research signifies a considerable breakthrough in leveraging Large Language Models (LLMs) for multi-intent spoken language understanding (SLU). Our approach re-imagines the use of entity slots in multi-intent SLU applications, making the most of the generative potential of LLMs within the SLU landscape, leading to the development of the EN-LLM series. Furthermore, we introduce the concept of Sub-Intent Instruction (SII) to amplify the analysis and interpretation of complex, multi-intent communications, which further supports the creation of the ENSI-LLM models series. Our novel datasets, identified as LM-MixATIS and LM-MixSNIPS, are synthesized from existing benchmarks. The study evidences that LLMs may match or even surpass the performance of the current best multi-intent SLU models. We also scrutinize the performance of LLMs across a spectrum of intent configurations and dataset distributions. On top of this, we present two revolutionary metrics - Entity Slot Accuracy (ESA) and Combined Semantic Accuracy (CSA) - to facilitate a detailed assessment of LLM competence in this multifaceted field." Our code and datasets are available at \url{https://github.com/SJY8460/SLM}.
- Abstract(参考訳): 本研究は,多言語言語理解(SLU)におけるLarge Language Models(LLMs)の利用において,大きなブレークスルーを示すものである。
提案手法は,マルチインテリジェントSLUアプリケーションにおけるエンティティスロットの利用を再検討し,SLUランドスケープにおけるLLMの生成可能性のほとんどを生かし,EN-LLMシリーズの開発に繋がる。
さらに,SII(Sub-Intent Instruction)の概念を導入して,複雑なマルチインテント通信の分析と解釈を増幅し,さらにENSI-LLMモデルシリーズの作成を支援する。
既存のベンチマークからLM-MixATISとLM-MixSNIPSと同定された新しいデータセットを合成した。
この研究は、LLMが現在の最高のマルチインテリジェントSLUモデルの性能と一致し、さらに上回っていることを証明している。
また、目的設定とデータセット分布のスペクトルにわたってLLMの性能を精査する。
これに加えて、この多面体分野におけるLLM能力の詳細な評価を容易にするために、エンティティスロット精度(ESA)と複合セマンティック精度(CSA)の2つの革命的指標を示す。
「私たちのコードとデータセットは \url{https://github.com/SJY8460/SLM} で利用可能です。
関連論文リスト
- Large Language Models as Software Components: A Taxonomy for LLM-Integrated Applications [0.0]
大規模言語モデル(LLM)が最近広く採用されている。自律エージェントやソフトウェア工学のツールとしての利用について調査している。
一方、LLMの統合されたアプリケーションは、LLMを利用してタスクを実行するソフトウェアシステムである。
本研究は,LLM統合アプリケーションに対する分類学を提供し,これらのシステムの解析と記述のためのフレームワークを提供する。
論文 参考訳(メタデータ) (2024-06-13T21:32:56Z) - SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models [97.40590590880144]
MLLM(Multimodality Large Language Model)シリーズを開発した。
我々は、言語、ビジョン、視覚言語タスクで利用可能なリソースを網羅した包括的なデータセットを組み立てる。
パラメータサイズや多言語能力の異なるMLLMのスペクトルを得る。
論文 参考訳(メタデータ) (2024-02-08T18:59:48Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage
and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。
具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。
実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文 参考訳(メタデータ) (2023-11-27T12:29:20Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - Generative Multimodal Entity Linking [24.322540112710918]
MEL(Multimodal Entity Linking)は、知識ベースからの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。
既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、すべてのモデルパラメータを微調整する必要がある。
大規模言語モデル(LLM)に基づくジェネレーティブマルチモーダルエンティティリンクフレームワークであるGEMELを提案する。
当社のフレームワークは市販の言語モデルと互換性があり、効率的で汎用的なソリューションへの道を開いたものです。
論文 参考訳(メタデータ) (2023-06-22T07:57:19Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。