論文の概要: ECLM: Entity Level Language Model for Spoken Language Understanding with Chain of Intent
- arxiv url: http://arxiv.org/abs/2403.04481v4
- Date: Tue, 07 Oct 2025 22:04:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:19.947352
- Title: ECLM: Entity Level Language Model for Spoken Language Understanding with Chain of Intent
- Title(参考訳): ECLM: 入力の連鎖による音声言語理解のためのエンティティレベル言語モデル
- Authors: Shangjian Yin, Peijie Huang, Jiatian Chen, Haojing Huang, Yuhong Xu,
- Abstract要約: 大きな言語モデル(LLM)は、言語生成と一般的なタスクパフォーマンスにおいて印象的な能力を示している。
本稿では,エンティティ認識タスクとしてスロットフィリングを再構成するエンティティレベル言語モデル(ECLM)フレームワークを提案する。
ECLMはUni-MISのような強力なベースラインをはるかに上回り、MixATISでは3.7%、MixSNIPSでは3.1%を達成している。
- 参考スコア(独自算出の注目度): 20.3491383818583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive capabilities in language generation and general task performance. However, their application to spoken language understanding (SLU) remains challenging, particularly for token-level tasks, where the autoregressive nature of LLMs often leads to misalignment issues. They also struggle to capture nuanced interrelations in semantic-level tasks through direct fine-tuning alone. To address these challenges, we propose the Entity-level Language Model (ECLM) framework, which reformulates slot-filling as an entity recognition task and introduces a novel concept, \textit{Chain of Intent}, to enable step-by-step multi-intent recognition. Experimental results show that ECLM significantly outperforms strong baselines such as Uni-MIS, achieving gains of 3.7\% on MixATIS and 3.1\% on MixSNIPS. Compared to standard supervised fine-tuning of LLMs, ECLM further achieves improvements of 8.5\% and 21.2\% on these datasets, respectively. Our code is available at https://github.com/SJY8460/ECLM.
- Abstract(参考訳): 大きな言語モデル(LLM)は、言語生成と一般的なタスクパフォーマンスにおいて印象的な能力を示している。
しかし,LLMの自己回帰的性質が誤認識を招きがちなトークンレベルのタスクにおいては,音声言語理解(SLU)への応用は依然として困難である。
彼らはまた、直接微調整だけで意味レベルのタスクの微妙な相互関係を捉えるのにも苦労した。
これらの課題に対処するため,エンティティ認識タスクとしてスロットフィリングを再構成するEntity-level Language Model (ECLM) フレームワークを提案し,ステップバイステップマルチインテント認識を実現するための新しい概念である \textit{Chain of Intent} を導入する。
実験の結果、ECLMはUni-MISのような強いベースラインを著しく上回り、MixSNIPSでは3.7\%、MixSNIPSでは3.1\%となった。
LLMの標準的な微調整と比較して、ECLMはこれらのデータセットの8.5\%と21.2\%の改善も達成している。
私たちのコードはhttps://github.com/SJY8460/ECLMで公開されています。
関連論文リスト
- Enhanced Multimodal Aspect-Based Sentiment Analysis by LLM-Generated Rationales [7.119479942471737]
既存の方法は、画像とテキストの両方からアスペクトや感情に関連する情報を集めるために、事前訓練された小さな言語モデル(SLM)に依存している。
我々は,SLMの意思決定能力とMABSAのためのLLMが提供する付加情報を組み合わせた新しいフレームワークLRSAを提案する。
論文 参考訳(メタデータ) (2025-05-20T15:28:26Z) - Ensemble Learning for Large Language Models in Text and Code Generation: A Survey [6.041894045506043]
より広範なアプリケーションに対して、強力なパフォーマンスとポテンシャルを示す4つの方法とモデルに焦点を当てます。
これには多様性の表現性の向上、出力品質の向上、アプリケーションの柔軟性の向上などが含まれる。
論文 参考訳(メタデータ) (2025-03-13T18:50:57Z) - Exploring the Implicit Semantic Ability of Multimodal Large Language Models: A Pilot Study on Entity Set Expansion [26.47488223403437]
マルチモーダル大言語モデル(MLLM)を用いて,エンティティレベルの粒度の暗黙的な意味情報を理解する。
ローカルスコアをグローバルランキングにマッピングするリストワイズランキング手法であるLUSARを導入する。
我々のLUSARは、MESEタスクにおけるMLLMの性能を大幅に向上させ、ESEタスクに生成MLLMを初めて使用し、リストワイドランキングの適用性を高めた。
論文 参考訳(メタデータ) (2024-12-31T08:03:48Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - Large Language Models as Software Components: A Taxonomy for LLM-Integrated Applications [0.0]
大規模言語モデル(LLM)が最近広く採用されている。自律エージェントやソフトウェア工学のツールとしての利用について調査している。
一方、LLMの統合されたアプリケーションは、LLMを利用してタスクを実行するソフトウェアシステムである。
本研究は,LLM統合アプリケーションに対する分類学を提供し,これらのシステムの解析と記述のためのフレームワークを提供する。
論文 参考訳(メタデータ) (2024-06-13T21:32:56Z) - SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models [97.40590590880144]
MLLM(Multimodality Large Language Model)シリーズを開発した。
我々は、言語、ビジョン、視覚言語タスクで利用可能なリソースを網羅した包括的なデータセットを組み立てる。
パラメータサイズや多言語能力の異なるMLLMのスペクトルを得る。
論文 参考訳(メタデータ) (2024-02-08T18:59:48Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage
and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。
具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。
実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文 参考訳(メタデータ) (2023-11-27T12:29:20Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。