論文の概要: Why Do Speech Language Models Fail to Generate Semantically Coherent Outputs? A Modality Evolving Perspective
- arxiv url: http://arxiv.org/abs/2412.17048v1
- Date: Sun, 22 Dec 2024 14:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:56:43.567508
- Title: Why Do Speech Language Models Fail to Generate Semantically Coherent Outputs? A Modality Evolving Perspective
- Title(参考訳): 言語モデルが意味的コヒーレントな出力を生成できない理由 : モダリティの進化的展望
- Authors: Hankun Wang, Haoran Wang, Yiwei Guo, Zhihan Li, Chenpeng Du, Xie Chen, Kai Yu,
- Abstract要約: テキストから音声へのモダリティを進化的に伝達することで,3つの要因の影響を別々に検討する。
A因子は比較的小さな影響を持ち、B因子は構文的および意味的モデリングに明らかに影響を与え、C因子は特に基本的な語彙的モデリングにおいて最も大きな影響を与えている。
- 参考スコア(独自算出の注目度): 23.49276487518479
- License:
- Abstract: Although text-based large language models exhibit human-level writing ability and remarkable intelligence, speech language models (SLMs) still struggle to generate semantically coherent outputs. There are several potential reasons for this performance degradation: (A) speech tokens mainly provide phonetic information rather than semantic information, (B) the length of speech sequences is much longer than that of text sequences, and (C) paralinguistic information, such as prosody, introduces additional complexity and variability. In this paper, we explore the influence of three key factors separately by transiting the modality from text to speech in an evolving manner. Our findings reveal that the impact of the three factors varies. Factor A has a relatively minor impact, factor B influences syntactical and semantic modeling more obviously, and factor C exerts the most significant impact, particularly in the basic lexical modeling. Based on these findings, we provide insights into the unique challenges of training SLMs and highlight pathways to develop more effective end-to-end SLMs.
- Abstract(参考訳): テキストベースの大規模言語モデルは人間レベルの書き込み能力と優れた知性を示すが、音声言語モデル(SLM)は意味的に一貫性のある出力を生成するのに苦戦している。
A)音声トークンは、主に意味情報よりも音声情報を提供し、(B)音声シーケンスの長さはテキストシーケンスよりもずっと長く、(C)韻律のようなパラ言語情報は、さらなる複雑さと可変性をもたらす。
本稿では,テキストから音声へのモダリティを進化的に伝達することで,3つの重要な要因の影響を別々に検討する。
以上の結果から,3因子の影響は様々であることが明らかとなった。
A因子は比較的小さな影響を持ち、B因子は構文的および意味的モデリングに明らかに影響を与え、C因子は特に基本的な語彙的モデリングにおいて最も大きな影響を与えている。
これらの知見に基づいて、我々はSLMのトレーニングにおけるユニークな課題についての洞察を提供し、より効率的なエンドツーエンドのSLMを開発するための道のハイライトを提供する。
関連論文リスト
- Balanced Multi-Factor In-Context Learning for Multilingual Large Language Models [53.38288894305388]
MLLM(Multilingual Large Language Model)は,言語間知識伝達をパラメータ更新なしで活用することにより,文脈内学習(ICL)を活用して高い性能を実現する。
1) 意味的類似性,(2) 言語的アライメント,(3) 言語固有のパフォーマンスの3つの要因が多言語ICLに影響を与える。
我々は,これらの因子を定量化し,最適にバランスをとる手法として,バランスの取れた多要素ICL(textbfBMF-ICL)を提案する。
論文 参考訳(メタデータ) (2025-02-17T06:56:33Z) - The Impact of Token Granularity on the Predictive Power of Language Model Surprisal [15.073507986272027]
認知モデリングにおいて見過ごされてきた要素の1つは、サブワードトークンの粒度である。
自然主義的読解時間を用いた実験は、トークンの粒度が副次的に与える影響を顕著に示している。
ガーデンパスの構成では、粗い粒度のトークンで訓練された言語モデルが、一般に臨界領域に対して高い確率を割り当てた。
論文 参考訳(メタデータ) (2024-12-16T16:24:58Z) - Chain-of-Thought in Large Language Models: Decoding, Projection, and Activation [8.80044898397965]
Chain-of-Thoughtプロンプトは、大規模言語モデルの推論能力を著しく向上させた。
本研究は,Chainof-Thoughtを用いたモデル内で発生する変化の解明を目的とした,デコーディング,プロジェクション,アクティベーションの3つの重要な側面について検討する。
論文 参考訳(メタデータ) (2024-12-05T07:47:29Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Debiased Multimodal Understanding for Human Language Sequences [14.434841446670726]
本研究では,非保守的共同創設者として働く被験者の影響を抑えるために,因果介入モジュールであるSuCIを提案する。
プラグアンドプレイコンポーネントとして、SuCIは偏見のない予測を求めるほとんどの方法に広く適用することができる。
論文 参考訳(メタデータ) (2024-03-08T04:03:54Z) - A Comparative Analysis of Conversational Large Language Models in
Knowledge-Based Text Generation [5.661396828160973]
本研究では,意味的三重項から自然言語文を生成する際に,対話型大規模言語モデルの実証分析を行う。
我々は、異なるプロンプト技術を用いて、異なる大きさの4つの大きな言語モデルを比較する。
この結果から,三重動詞化における大規模言語モデルの能力は,数発のプロンプト,後処理,効率的な微調整技術によって著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-02-02T15:26:39Z) - Enhancing Argument Structure Extraction with Efficient Leverage of
Contextual Information [79.06082391992545]
本稿では,コンテキスト情報を完全に活用する効率的なコンテキスト認識モデル(ECASE)を提案する。
文脈情報や議論情報を集約するために,シーケンスアテンションモジュールと距離重み付き類似度損失を導入する。
各種ドメインの5つのデータセットに対する実験により,我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-10-08T08:47:10Z) - How to Handle Different Types of Out-of-Distribution Scenarios in Computational Argumentation? A Comprehensive and Fine-Grained Field Study [59.13867562744973]
この研究は、オフ・オブ・ディストリビューション(OOD)シナリオにおけるLMの能力を体系的に評価する。
このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。
具体的には、ICLはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝っている。
論文 参考訳(メタデータ) (2023-09-15T11:15:47Z) - Inducing Causal Structure for Abstractive Text Summarization [76.1000380429553]
要約データの因果構造を誘導する構造因果モデル(SCM)を導入する。
本稿では因果的要因を模倣できる因果的表現を学習するための因果性インスピレーション付き系列列列モデル(CI-Seq2Seq)を提案する。
2つの広く使われているテキスト要約データセットの実験結果は、我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2023-08-24T16:06:36Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Deep generative factorization for speech signal [25.047575079871272]
本稿では,新しい因子識別正規化フローモデル(因子DNF)に基づく音声分解手法を提案する。
音声コンテンツと話者特性を含む2要素ケースで行った実験は、提案した因子的DNFが音声信号を分解する強力な能力を持っていることを示す。
論文 参考訳(メタデータ) (2020-10-27T12:27:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。