Fugu-MT 論文翻訳(概要): Do Large Language Model Understand Multi-Intent Spoken Language ?

論文の概要: Do Large Language Model Understand Multi-Intent Spoken Language ?

arxiv url: http://arxiv.org/abs/2403.04481v1
Date: Thu, 7 Mar 2024 13:30:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 14:06:26.185037
Title: Do Large Language Model Understand Multi-Intent Spoken Language ?
Title（参考訳）: 大規模言語モデルは多言語音声言語を理解するか?
Authors: Shangjian Yin, Peijie Huang, Yuhong Xu, Haojing Huang, Jiatian Chen
Abstract要約: この研究は、多言語言語理解(SLU)にLarge Language Models(LLM)を活用することで、著しい進歩を示す。我々の革新的な技術は、マルチインテリジェントSLU環境におけるLLMアプリケーション専用のエンティティスロットを再構成する。 LM-MixATISとLM-MixSNIPSと呼ばれるデータセットは、既存のベンチマークから作成されている。
参考スコア（独自算出の注目度）: 5.894722183922689
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This study marks a significant advancement by harnessing Large Language Models (LLMs) for multi-intent spoken language understanding (SLU), proposing a unique methodology that capitalizes on the generative power of LLMs within an SLU context. Our innovative technique reconfigures entity slots specifically for LLM application in multi-intent SLU environments and introduces the concept of Sub-Intent Instruction (SII), enhancing the dissection and interpretation of intricate, multi-intent communication within varied domains. The resultant datasets, dubbed LM-MixATIS and LM-MixSNIPS, are crafted from pre-existing benchmarks. Our research illustrates that LLMs can match and potentially excel beyond the capabilities of current state-of-the-art multi-intent SLU models. It further explores LLM efficacy across various intent configurations and dataset proportions. Moreover, we introduce two pioneering metrics, Entity Slot Accuracy (ESA) and Combined Semantic Accuracy (CSA), to provide an in-depth analysis of LLM proficiency in this complex field.
Abstract（参考訳）: 本研究は多言語言語理解(SLU)にLLM(Large Language Models, LLMs)を応用し, SLUの文脈におけるLLMの生成力を生かした独自の方法論を提案する。提案手法は,マルチインテントslu環境におけるllmアプリケーションに特化したエンティティスロットを再構成し,サブインテント命令(sii)の概念を導入し,様々な領域における複雑なマルチインテント通信の分割と解釈を強化する。 LM-MixATISとLM-MixSNIPSと呼ばれるデータセットは、既存のベンチマークから作成されている。我々の研究は、LLMが現在の最先端のマルチインテリジェントSLUモデルの能力に適合し、潜在的に優れていることを示している。さらに、LLMの有効性を、様々な意図構成とデータセットの比率で調べる。さらに、この複雑な分野におけるLLMの精度の詳細な分析を行うために、Entity Slot Accuracy(ESA)とCombined Semantic Accuracy(CSA)の2つの先駆的な指標を紹介した。

関連論文リスト

Enhanced Multimodal Aspect-Based Sentiment Analysis by LLM-Generated Rationales [7.119479942471737]
既存の方法は、画像とテキストの両方からアスペクトや感情に関連する情報を集めるために、事前訓練された小さな言語モデル(SLM)に依存している。我々は,SLMの意思決定能力とMABSAのためのLLMが提供する付加情報を組み合わせた新しいフレームワークLRSAを提案する。
論文参考訳（メタデータ） (2025-05-20T15:28:26Z)
Ensemble Learning for Large Language Models in Text and Code Generation: A Survey [6.041894045506043]
より広範なアプリケーションに対して、強力なパフォーマンスとポテンシャルを示す4つの方法とモデルに焦点を当てます。これには多様性の表現性の向上、出力品質の向上、アプリケーションの柔軟性の向上などが含まれる。
論文参考訳（メタデータ） (2025-03-13T18:50:57Z)
Exploring the Implicit Semantic Ability of Multimodal Large Language Models: A Pilot Study on Entity Set Expansion [26.47488223403437]
マルチモーダル大言語モデル(MLLM)を用いて,エンティティレベルの粒度の暗黙的な意味情報を理解する。ローカルスコアをグローバルランキングにマッピングするリストワイズランキング手法であるLUSARを導入する。我々のLUSARは、MESEタスクにおけるMLLMの性能を大幅に向上させ、ESEタスクに生成MLLMを初めて使用し、リストワイドランキングの適用性を高めた。
論文参考訳（メタデータ） (2024-12-31T08:03:48Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文参考訳（メタデータ） (2024-08-02T15:14:53Z)
Large Language Models as Software Components: A Taxonomy for LLM-Integrated Applications [0.0]
大規模言語モデル(LLM)が最近広く採用されている。自律エージェントやソフトウェア工学のツールとしての利用について調査している。一方、LLMの統合されたアプリケーションは、LLMを利用してタスクを実行するソフトウェアシステムである。本研究は,LLM統合アプリケーションに対する分類学を提供し,これらのシステムの解析と記述のためのフレームワークを提供する。
論文参考訳（メタデータ） (2024-06-13T21:32:56Z)
SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models [97.40590590880144]
MLLM(Multimodality Large Language Model)シリーズを開発した。我々は、言語、ビジョン、視覚言語タスクで利用可能なリソースを網羅した包括的なデータセットを組み立てる。パラメータサイズや多言語能力の異なるMLLMのスペクトルを得る。
論文参考訳（メタデータ） (2024-02-08T18:59:48Z)
Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文参考訳（メタデータ） (2024-01-19T05:02:46Z)
Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。 Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文参考訳（メタデータ） (2023-12-29T01:56:17Z)
Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文参考訳（メタデータ） (2023-11-27T12:29:20Z)
On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文参考訳（メタデータ） (2023-10-04T23:33:36Z)
Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。 Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文参考訳（メタデータ） (2023-06-15T12:45:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。