論文の概要: Why Do Speech Language Models Fail to Generate Semantically Coherent Outputs? A Modality Evolving Perspective
- arxiv url: http://arxiv.org/abs/2412.17048v1
- Date: Sun, 22 Dec 2024 14:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:56:43.567508
- Title: Why Do Speech Language Models Fail to Generate Semantically Coherent Outputs? A Modality Evolving Perspective
- Title(参考訳): 言語モデルが意味的コヒーレントな出力を生成できない理由 : モダリティの進化的展望
- Authors: Hankun Wang, Haoran Wang, Yiwei Guo, Zhihan Li, Chenpeng Du, Xie Chen, Kai Yu,
- Abstract要約: テキストから音声へのモダリティを進化的に伝達することで,3つの要因の影響を別々に検討する。
A因子は比較的小さな影響を持ち、B因子は構文的および意味的モデリングに明らかに影響を与え、C因子は特に基本的な語彙的モデリングにおいて最も大きな影響を与えている。
- 参考スコア(独自算出の注目度): 23.49276487518479
- License:
- Abstract: Although text-based large language models exhibit human-level writing ability and remarkable intelligence, speech language models (SLMs) still struggle to generate semantically coherent outputs. There are several potential reasons for this performance degradation: (A) speech tokens mainly provide phonetic information rather than semantic information, (B) the length of speech sequences is much longer than that of text sequences, and (C) paralinguistic information, such as prosody, introduces additional complexity and variability. In this paper, we explore the influence of three key factors separately by transiting the modality from text to speech in an evolving manner. Our findings reveal that the impact of the three factors varies. Factor A has a relatively minor impact, factor B influences syntactical and semantic modeling more obviously, and factor C exerts the most significant impact, particularly in the basic lexical modeling. Based on these findings, we provide insights into the unique challenges of training SLMs and highlight pathways to develop more effective end-to-end SLMs.
- Abstract(参考訳): テキストベースの大規模言語モデルは人間レベルの書き込み能力と優れた知性を示すが、音声言語モデル(SLM)は意味的に一貫性のある出力を生成するのに苦戦している。
A)音声トークンは、主に意味情報よりも音声情報を提供し、(B)音声シーケンスの長さはテキストシーケンスよりもずっと長く、(C)韻律のようなパラ言語情報は、さらなる複雑さと可変性をもたらす。
本稿では,テキストから音声へのモダリティを進化的に伝達することで,3つの重要な要因の影響を別々に検討する。
以上の結果から,3因子の影響は様々であることが明らかとなった。
A因子は比較的小さな影響を持ち、B因子は構文的および意味的モデリングに明らかに影響を与え、C因子は特に基本的な語彙的モデリングにおいて最も大きな影響を与えている。
これらの知見に基づいて、我々はSLMのトレーニングにおけるユニークな課題についての洞察を提供し、より効率的なエンドツーエンドのSLMを開発するための道のハイライトを提供する。
関連論文リスト
- Image First or Text First? Optimising the Sequencing of Modalities in Large Language Model Prompting and Reasoning Tasks [0.0]
本稿では,マルチモーダル内における画像とテキストのシークエンシングが,大規模言語モデル(LLM)の推論性能にどのように影響するかを検討する。
単一の画像を含む単純なタスクに対して、モダリティシークエンシングは精度に明確な影響を及ぼした。
複数の画像と複雑な推論ステップを含むより複雑なタスクでは、シークエンシングの効果が減少し、おそらくタスクの認知的要求が増大したためである。
論文 参考訳(メタデータ) (2024-10-04T00:55:15Z) - Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Scaling Properties of Speech Language Models [4.0142527158949415]
音声言語モデル(SLM)は、テキストリソースを使わずに、生音声から言語を学ぶことを目的としている。
テキストベース大規模言語モデル(LLM)の英語習熟度を用いて,現在の手法がSLMを生成するスケールを推定する。
論文 参考訳(メタデータ) (2024-03-31T13:30:12Z) - Word Importance Explains How Prompts Affect Language Model Outputs [0.7223681457195862]
本研究では,個々の単語をインプロンプトで変化させることにより,大規模言語モデルの説明可能性を向上させる手法を提案する。
古典的注目とは違って、単語の重要度は、任意に定義されたテキストスコアに対する急進的な単語の影響を測定する。
その結果,単語の重要度スコアは,複数のスコア機能において期待される接尾辞の重要度と密接に関連していることがわかった。
論文 参考訳(メタデータ) (2024-03-05T15:04:18Z) - A Comparative Analysis of Conversational Large Language Models in
Knowledge-Based Text Generation [5.661396828160973]
本研究では,意味的三重項から自然言語文を生成する際に,対話型大規模言語モデルの実証分析を行う。
我々は、異なるプロンプト技術を用いて、異なる大きさの4つの大きな言語モデルを比較する。
この結果から,三重動詞化における大規模言語モデルの能力は,数発のプロンプト,後処理,効率的な微調整技術によって著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-02-02T15:26:39Z) - Enhancing Argument Structure Extraction with Efficient Leverage of
Contextual Information [79.06082391992545]
本稿では,コンテキスト情報を完全に活用する効率的なコンテキスト認識モデル(ECASE)を提案する。
文脈情報や議論情報を集約するために,シーケンスアテンションモジュールと距離重み付き類似度損失を導入する。
各種ドメインの5つのデータセットに対する実験により,我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-10-08T08:47:10Z) - How to Handle Different Types of Out-of-Distribution Scenarios in Computational Argumentation? A Comprehensive and Fine-Grained Field Study [59.13867562744973]
この研究は、オフ・オブ・ディストリビューション(OOD)シナリオにおけるLMの能力を体系的に評価する。
このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。
具体的には、ICLはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝っている。
論文 参考訳(メタデータ) (2023-09-15T11:15:47Z) - Inducing Causal Structure for Abstractive Text Summarization [76.1000380429553]
要約データの因果構造を誘導する構造因果モデル(SCM)を導入する。
本稿では因果的要因を模倣できる因果的表現を学習するための因果性インスピレーション付き系列列列モデル(CI-Seq2Seq)を提案する。
2つの広く使われているテキスト要約データセットの実験結果は、我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2023-08-24T16:06:36Z) - CausalDialogue: Modeling Utterance-level Causality in Conversations [83.03604651485327]
クラウドソーシングを通じて、CausalDialogueという新しいデータセットをコンパイルし、拡張しました。
このデータセットは、有向非巡回グラフ(DAG)構造内に複数の因果効果対を含む。
ニューラル会話モデルの訓練における発話レベルにおける因果性の影響を高めるために,Exponential Average Treatment Effect (ExMATE) と呼ばれる因果性強化手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T18:31:50Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Deep generative factorization for speech signal [25.047575079871272]
本稿では,新しい因子識別正規化フローモデル(因子DNF)に基づく音声分解手法を提案する。
音声コンテンツと話者特性を含む2要素ケースで行った実験は、提案した因子的DNFが音声信号を分解する強力な能力を持っていることを示す。
論文 参考訳(メタデータ) (2020-10-27T12:27:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。