論文の概要: Fillers in Spoken Language Understanding: Computational and
Psycholinguistic Perspectives
- arxiv url: http://arxiv.org/abs/2301.10761v1
- Date: Wed, 25 Jan 2023 18:55:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-26 14:35:41.881462
- Title: Fillers in Spoken Language Understanding: Computational and
Psycholinguistic Perspectives
- Title(参考訳): 音声言語理解におけるファイラー : 計算的・心理的視点
- Authors: Tanvi Dinkar, Chlo\'e Clavel, Ioana Vasilescu
- Abstract要約: フィラー(英: Filler)は、他の種類のディフルネスと比較して最も頻繁に発生するディフルエンシである。
本稿は、全体像を総合的に合成することを目的としている。
- 参考スコア(独自算出の注目度): 3.8157982342768033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Disfluencies (i.e. interruptions in the regular flow of speech), are
ubiquitous to spoken discourse. Fillers ("uh", "um") are disfluencies that
occur the most frequently compared to other kinds of disfluencies. Yet, to the
best of our knowledge, there isn't a resource that brings together the research
perspectives influencing Spoken Language Understanding (SLU) on these speech
events. This aim of this article is to synthesise a breadth of perspectives in
a holistic way; i.e. from considering underlying (psycho)linguistic theory, to
their annotation and consideration in Automatic Speech Recognition (ASR) and
SLU systems, to lastly, their study from a generation standpoint. This article
aims to present the perspectives in an approachable way to the SLU and
Conversational AI community, and discuss moving forward, what we believe are
the trends and challenges in each area.
- Abstract(参考訳): 発話の通常の流れにおける中断(disfluencies)は、話し言葉に対してユビキタスである。
フィラー("uh", "um")は、他の種類の不均衡と比較して最も頻繁に発生する不規則である。
しかし、私たちの知る限りでは、これらのスピーチイベントにおいてSpoken Language Understanding(SLU)に影響を与える研究の視点をまとめるリソースは存在しない。
本論文の目的は,基本(心理学)言語理論の考察から,自動音声認識(asr)とsluシステムにおける注釈と考察から,世代的観点からの研究まで,全体論的に幅広い視点を合成することである。
この記事では、SLUと会話型AIコミュニティにアプローチ可能な方法で視点を提示し、前進、各分野のトレンドと課題を議論することを目的としています。
関連論文リスト
- Can large language models understand uncommon meanings of common words? [30.527834781076546]
大規模言語モデル(LLM)は、様々な自然言語理解(NLU)タスクに大きく進歩している。
しかし、LLMがオウムなのか、本当の意味で世界を理解するのかは、広く認知されている試験機構が欠如している。
本稿では,新しい評価指標を用いたレキシカルセマンティックデータセットの革新的構築について述べる。
論文 参考訳(メタデータ) (2024-05-09T12:58:22Z) - Recent Advances in Hate Speech Moderation: Multimodality and the Role of Large Models [52.24001776263608]
この包括的調査は、HSモデレーションの最近の歩みを掘り下げている。
大型言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の急成長する役割を強調した。
研究における既存のギャップを、特に表現不足言語や文化の文脈で特定する。
論文 参考訳(メタデータ) (2024-01-30T03:51:44Z) - Igniting Language Intelligence: The Hitchhiker's Guide From
Chain-of-Thought Reasoning to Language Agents [80.5213198675411]
大規模言語モデル(LLM)は言語知能の分野を劇的に拡張した。
LLMは興味をそそるチェーン・オブ・シークレット(CoT)推論技術を活用し、答えを導き出す途中の中間ステップを定式化しなければならない。
最近の研究は、自律言語エージェントの開発を促進するためにCoT推論手法を拡張している。
論文 参考訳(メタデータ) (2023-11-20T14:30:55Z) - On General Language Understanding [18.2932386988379]
本稿では,モデル品質の測定方法の妥当性に関する疑問を解き明かすことができる理解モデルの概要を概説する。
A) 異なる言語使用状況タイプが異なる特徴を持っていること、B) 言語理解は多面的な現象であること、C) 理解指標の選択はベンチマークの限界を示すこと、である。
論文 参考訳(メタデータ) (2023-10-27T10:36:54Z) - POSQA: Probe the World Models of LLMs with Size Comparisons [38.30479784257936]
身体的言語理解は、言語理解が単に脳の精神的処理の問題ではないことを強調している。
LLM(Large Language Models)の爆発的成長と、私たちの日常生活にすでに広く存在していることから、現実の理解を検証する必要性が高まっている。
論文 参考訳(メタデータ) (2023-10-20T10:05:01Z) - Joint Audio and Speech Understanding [81.34673662385774]
我々はLTU-ASと呼ばれる機械学習モデルを構築し、概念的に類似した普遍的な音声知覚と高度な推論能力を持つ。
Whisperを知覚モジュールとして、LLaMAを推論モジュールとして統合することにより、LTU-ASは音声テキスト、音声パラ言語学、非音声音声イベントを同時に認識し、共同理解することができる。
論文 参考訳(メタデータ) (2023-09-25T17:59:05Z) - E-ffective: A Visual Analytic System for Exploring the Emotion and
Effectiveness of Inspirational Speeches [57.279044079196105]
E-ffective(エフェクティブ)は、音声の専門家や初心者が、音声要因の役割と効果的な音声への貢献の両方を分析することのできる視覚分析システムである。
E-spiral(音声の感情の変化を視覚的にコンパクトに表現する)とE-script(音声コンテンツを主要な音声配信情報に結びつける)の2つの新しい可視化技術がある。
論文 参考訳(メタデータ) (2021-10-28T06:14:27Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Can phones, syllables, and words emerge as side-products of
cross-situational audiovisual learning? -- A computational investigation [2.28438857884398]
いわゆる潜在言語仮説(LLH)について検討する。
LLHは言語表現学習を、知覚のモダリティ内および横断的な一般的な予測処理に結びつける。
我々は、様々なニューラルネットワークモデルを用いた広範学習シミュレーションにおけるLLHをさらに探求する。
論文 参考訳(メタデータ) (2021-09-29T05:49:46Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。