論文の概要: Addressing the Blind Spots in Spoken Language Processing
- arxiv url: http://arxiv.org/abs/2309.06572v1
- Date: Wed, 6 Sep 2023 10:29:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-17 14:02:11.264826
- Title: Addressing the Blind Spots in Spoken Language Processing
- Title(参考訳): 音声言語処理における盲点への取り組み
- Authors: Amit Moryossef
- Abstract要約: 人間のコミュニケーションを理解するには、非言語的要素を含むために、テキスト語や音声語を超越した、より包括的なアプローチが必要である、と我々は主張する。
本稿では,これらの非言語的手がかりをテキスト形式で書き起こす汎用的な自動ジェスチャーセグメンテーションと書き起こしモデルの開発を提案する。
- 参考スコア(独自算出の注目度): 4.626189039960495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores the critical but often overlooked role of non-verbal
cues, including co-speech gestures and facial expressions, in human
communication and their implications for Natural Language Processing (NLP). We
argue that understanding human communication requires a more holistic approach
that goes beyond textual or spoken words to include non-verbal elements.
Borrowing from advances in sign language processing, we propose the development
of universal automatic gesture segmentation and transcription models to
transcribe these non-verbal cues into textual form. Such a methodology aims to
bridge the blind spots in spoken language understanding, enhancing the scope
and applicability of NLP models. Through motivating examples, we demonstrate
the limitations of relying solely on text-based models. We propose a
computationally efficient and flexible approach for incorporating non-verbal
cues, which can seamlessly integrate with existing NLP pipelines. We conclude
by calling upon the research community to contribute to the development of
universal transcription methods and to validate their effectiveness in
capturing the complexities of real-world, multi-modal interactions.
- Abstract(参考訳): 本稿では,言語処理(NLP)における非言語的手がかりの重要かつ過度に見過ごされる役割について考察する。
我々は、人間のコミュニケーションを理解するには、非言語的要素を含むために、テキスト的あるいは話し言葉を超えた、より包括的なアプローチが必要であると主張する。
我々は手話処理の進歩から,これらの非言語的手がかりをテキスト形式に書き起こす汎用的な自動ジェスチャーセグメンテーションと書き起こしモデルの開発を提案する。
このような手法は、音声言語理解における盲点を橋渡しし、NLPモデルのスコープと適用性を高めることを目的としている。
サンプルのモチベーションを通じて、テキストベースモデルのみに依存する限界を実証する。
従来のNLPパイプラインとシームレスに統合可能な,非言語的キューを組み込むための計算効率が高く柔軟なアプローチを提案する。
結論として, 研究コミュニティに対し, 普遍的転写法の発展に寄与すること, 実世界のマルチモーダル相互作用の複雑さを捉える上での有効性を検証するよう求めた。
関連論文リスト
- Neural Sign Actors: A diffusion model for 3D sign language production
from text [54.048218171283885]
手話は難聴者や難聴者のコミュニティにとって主要なコミュニケーション手段である。
深層学習はSL認識と翻訳の多くの手法を支援しており、顕著な成果を上げている。
この研究は、現実的なニューラルサインアバターに向けて重要かつ必要なステップを示し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - BabySLM: language-acquisition-friendly benchmark of self-supervised
spoken language models [56.93604813379634]
音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。
語彙および構文レベルで音声言語モデルを探索するために,言語習得に親しみやすいベンチマークを提案する。
テキストと音声のギャップを埋めることと、クリーンな音声とその内話のギャップを埋めることである。
論文 参考訳(メタデータ) (2023-06-02T12:54:38Z) - Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。
本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文 参考訳(メタデータ) (2023-05-22T17:18:29Z) - On the Role of Emergent Communication for Social Learning in Multi-Agent
Reinforcement Learning [0.0]
社会学習は、専門家からのヒントを使って、異質なポリシーを整列し、サンプルの複雑さを減らし、部分的に観察可能なタスクを解決する。
本稿では,情報ボトルネックに基づく教師なし手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T03:23:27Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - Color Overmodification Emerges from Data-Driven Learning and Pragmatic
Reasoning [53.088796874029974]
話者の指示表現は、実践的な言語使用の性質を照らし出すのに役立つ方法で、コミュニケーションイデアルから逸脱していることを示す。
ニューラルネットワークを学習エージェントとして採用することにより、過度な修正は、頻度の低い、あるいは正常な環境特性に結びつく可能性が高いことを示す。
論文 参考訳(メタデータ) (2022-05-18T18:42:43Z) - Bridging between Cognitive Processing Signals and Linguistic Features
via a Unified Attentional Network [25.235060468310696]
本稿では,認知処理信号と言語的特徴との関連性を検討するためのデータ駆動手法を提案する。
我々は、埋め込み、注意、エンコーディング、予測層からなる統合された注意フレームワークを提案する。
提案するフレームワークは,単一の認知データセットを用いて,幅広い言語的特徴を検出するために利用できる。
論文 参考訳(メタデータ) (2021-12-16T12:25:11Z) - Towards Transparent Interactive Semantic Parsing via Step-by-Step
Correction [17.000283696243564]
自然言語における予測論理形式を段階的に説明する対話型意味解析フレームワークについて検討する。
フレームワークのインスタンス化として,知識ベース(KBQA)に対する質問応答に注目した。
実験の結果,人間のフィードバックによる対話型フレームワークは,全体の解析精度を大幅に向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2021-10-15T20:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。