Fugu-MT 論文翻訳(概要): Addressing the Blind Spots in Spoken Language Processing

論文の概要: Addressing the Blind Spots in Spoken Language Processing

arxiv url: http://arxiv.org/abs/2309.06572v1
Date: Wed, 6 Sep 2023 10:29:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-17 14:02:11.264826
Title: Addressing the Blind Spots in Spoken Language Processing
Title（参考訳）: 音声言語処理における盲点への取り組み
Authors: Amit Moryossef
Abstract要約: 人間のコミュニケーションを理解するには、非言語的要素を含むために、テキスト語や音声語を超越した、より包括的なアプローチが必要である、と我々は主張する。本稿では,これらの非言語的手がかりをテキスト形式で書き起こす汎用的な自動ジェスチャーセグメンテーションと書き起こしモデルの開発を提案する。
参考スコア（独自算出の注目度）: 4.626189039960495
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper explores the critical but often overlooked role of non-verbal cues, including co-speech gestures and facial expressions, in human communication and their implications for Natural Language Processing (NLP). We argue that understanding human communication requires a more holistic approach that goes beyond textual or spoken words to include non-verbal elements. Borrowing from advances in sign language processing, we propose the development of universal automatic gesture segmentation and transcription models to transcribe these non-verbal cues into textual form. Such a methodology aims to bridge the blind spots in spoken language understanding, enhancing the scope and applicability of NLP models. Through motivating examples, we demonstrate the limitations of relying solely on text-based models. We propose a computationally efficient and flexible approach for incorporating non-verbal cues, which can seamlessly integrate with existing NLP pipelines. We conclude by calling upon the research community to contribute to the development of universal transcription methods and to validate their effectiveness in capturing the complexities of real-world, multi-modal interactions.
Abstract（参考訳）: 本稿では,言語処理(NLP)における非言語的手がかりの重要かつ過度に見過ごされる役割について考察する。我々は、人間のコミュニケーションを理解するには、非言語的要素を含むために、テキスト的あるいは話し言葉を超えた、より包括的なアプローチが必要であると主張する。我々は手話処理の進歩から,これらの非言語的手がかりをテキスト形式に書き起こす汎用的な自動ジェスチャーセグメンテーションと書き起こしモデルの開発を提案する。このような手法は、音声言語理解における盲点を橋渡しし、NLPモデルのスコープと適用性を高めることを目的としている。サンプルのモチベーションを通じて、テキストベースモデルのみに依存する限界を実証する。従来のNLPパイプラインとシームレスに統合可能な,非言語的キューを組み込むための計算効率が高く柔軟なアプローチを提案する。結論として, 研究コミュニティに対し, 普遍的転写法の発展に寄与すること, 実世界のマルチモーダル相互作用の複雑さを捉える上での有効性を検証するよう求めた。

関連論文リスト

ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。 ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文参考訳（メタデータ） (2025-07-27T00:59:01Z)
Detecting Referring Expressions in Visually Grounded Dialogue with Autoregressive Language Models [3.8673630752805446]
本研究の目的は,言語文脈のみが言及の検出にどのような影響を及ぼすかを検討することである。我々は,事前訓練された大言語モデル (LLM) を用いて,会話の展開における参照スパンの比較的詳細なアノテーションを実行する。その結果,中程度サイズのLLM,比較的小さなデータセット,パラメータ効率の高い微調整を用いても,テキストのみのアプローチが有効であることが示唆された。
論文参考訳（メタデータ） (2025-06-26T14:14:20Z)
Towards Developmentally Plausible Rewards: Communicative Success as a Learning Signal for Interactive Language Models [49.22720751953838]
本研究では,子どもの言語習得に触発された対話型環境で言語モデルを訓練する手法を提案する。この設定では、話者は1ターンの対話でリスナーに何らかの情報を伝達しようと試み、コミュニケーションの成功が達成されれば報酬を受け取る。
論文参考訳（メタデータ） (2025-05-09T11:48:36Z)
Real-Time Multilingual Sign Language Processing [4.626189039960495]
手話処理(SLP)は、自然言語処理(NLP)とコンピュータビジョンからなる学際分野である。伝統的なアプローチは、言語固有のものであり、手話の多次元的な性質を捉えるのに不十分なグロスベースのシステムを使用することによって、しばしば制約されてきた。本稿では,手話文字起こし表記システムであるSignWiringを,手話の視覚・ジェスチャーのモダリティとテキストに基づく言語表現の中間的リンクとして用いることを提案する。
論文参考訳（メタデータ） (2024-12-02T21:51:41Z)
OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文参考訳（メタデータ） (2024-10-23T11:58:58Z)
Nonverbal Interaction Detection [83.40522919429337]
この研究は、社会的文脈における人間の非言語的相互作用を理解するという新たな課題に対処する。我々はNVIと呼ばれる新しい大規模データセットを寄贈し、人間とそれに対応する社会グループのための境界ボックスを含むように細心の注意を払ってアノテートする。第2に,非言語的インタラクション検出のための新たなタスクNVI-DETを構築し,画像から三つ子を識別する。第3に,非言語相互作用検出ハイパーグラフ (NVI-DEHR) を提案する。
論文参考訳（メタデータ） (2024-07-11T02:14:06Z)
Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文参考訳（メタデータ） (2024-06-16T20:41:44Z)
Interpretability of Language Models via Task Spaces [14.543168558734001]
本稿では,解釈言語モデル (LM) の代替手法を提案する。我々は、LM処理の品質に焦点を合わせ、言語能力に焦点をあてる。言語現象間の関係を照らす「言語的タスク空間」を構築した。
論文参考訳（メタデータ） (2024-06-10T16:34:30Z)
Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文参考訳（メタデータ） (2023-05-22T17:18:29Z)
On the Role of Emergent Communication for Social Learning in Multi-Agent Reinforcement Learning [0.0]
社会学習は、専門家からのヒントを使って、異質なポリシーを整列し、サンプルの複雑さを減らし、部分的に観察可能なタスクを解決する。本稿では,情報ボトルネックに基づく教師なし手法を提案する。
論文参考訳（メタデータ） (2023-02-28T03:23:27Z)
Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-01-10T13:18:25Z)
An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文参考訳（メタデータ） (2022-11-10T14:26:43Z)
Color Overmodification Emerges from Data-Driven Learning and Pragmatic Reasoning [53.088796874029974]
話者の指示表現は、実践的な言語使用の性質を照らし出すのに役立つ方法で、コミュニケーションイデアルから逸脱していることを示す。ニューラルネットワークを学習エージェントとして採用することにより、過度な修正は、頻度の低い、あるいは正常な環境特性に結びつく可能性が高いことを示す。
論文参考訳（メタデータ） (2022-05-18T18:42:43Z)
Bridging between Cognitive Processing Signals and Linguistic Features via a Unified Attentional Network [25.235060468310696]
本稿では,認知処理信号と言語的特徴との関連性を検討するためのデータ駆動手法を提案する。我々は、埋め込み、注意、エンコーディング、予測層からなる統合された注意フレームワークを提案する。提案するフレームワークは,単一の認知データセットを用いて,幅広い言語的特徴を検出するために利用できる。
論文参考訳（メタデータ） (2021-12-16T12:25:11Z)
Towards Transparent Interactive Semantic Parsing via Step-by-Step Correction [17.000283696243564]
自然言語における予測論理形式を段階的に説明する対話型意味解析フレームワークについて検討する。フレームワークのインスタンス化として,知識ベース(KBQA)に対する質問応答に注目した。実験の結果,人間のフィードバックによる対話型フレームワークは,全体の解析精度を大幅に向上させる可能性が示唆された。
論文参考訳（メタデータ） (2021-10-15T20:11:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。