Fugu-MT 論文翻訳(概要): A Robust Semantic Frame Parsing Pipeline on a New Complex Twitter Dataset

論文の概要: A Robust Semantic Frame Parsing Pipeline on a New Complex Twitter Dataset

arxiv url: http://arxiv.org/abs/2212.08987v1
Date: Sun, 18 Dec 2022 01:59:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-20 14:43:47.824392
Title: A Robust Semantic Frame Parsing Pipeline on a New Complex Twitter Dataset
Title（参考訳）: 新しい複雑なtwitterデータセットにおけるロバストなセマンティックフレーム解析パイプライン
Authors: Yu Wang and Hongxia Jin
Abstract要約: 我々は,emphOODパターンとemphOOVトークンの両方を扱えるロバストなセマンティックフレーム解析パイプラインを導入する。また、E2Eアプリケーションを構築して、アルゴリズムの有効性をデモし、それが実際のアプリケーションで有用である理由を示す。
参考スコア（独自算出の注目度）: 53.73316523766183
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most recent semantic frame parsing systems for spoken language understanding (SLU) are designed based on recurrent neural networks. These systems display decent performance on benchmark SLU datasets such as ATIS or SNIPS, which contain short utterances with relatively simple patterns. However, the current semantic frame parsing models lack a mechanism to handle out-of-distribution (\emph{OOD}) patterns and out-of-vocabulary (\emph{OOV}) tokens. In this paper, we introduce a robust semantic frame parsing pipeline that can handle both \emph{OOD} patterns and \emph{OOV} tokens in conjunction with a new complex Twitter dataset that contains long tweets with more \emph{OOD} patterns and \emph{OOV} tokens. The new pipeline demonstrates much better results in comparison to state-of-the-art baseline SLU models on both the SNIPS dataset and the new Twitter dataset (Our new Twitter dataset can be downloaded from https://1drv.ms/u/s!AroHb-W6_OAlavK4begsDsMALfE?e=c8f2XX ). Finally, we also build an E2E application to demo the feasibility of our algorithm and show why it is useful in real application.
Abstract（参考訳）: 最近の音声言語理解のためのセマンティックフレーム解析システムは、繰り返しニューラルネットワークに基づいて設計されている。これらのシステムは、ATISやSNIPSなどのベンチマークSLUデータセットにおいて、比較的単純なパターンの短い発話を含む良好な性能を示す。しかし、現在のセマンティックフレーム解析モデルは、分配外(\emph{ood})パターンと語彙外(\emph{oov})トークンを扱うメカニズムを欠いている。本稿では,より多くの \emph{OOD} パターンと \emph{OOV} トークンと,さらに多くの \emph{OOD} パターンと \emph{OOV} トークンを含む長いつぶやきを含む新しい複雑な Twitter データセットを併用した,ロバストなセマンティックフレーム解析パイプラインを提案する。新しいパイプラインは、SNIPSデータセットと新しいTwitterデータセットの両方の最先端のベースラインSLUモデルと比較して、はるかに優れた結果を示している(新しいTwitterデータセットはhttps://1drv.ms/u/s!AroHb-W6_OAlavK4begsDsMALfE?e=c8f2XX )。最後に、E2Eアプリケーションを構築し、アルゴリズムの有効性をデモし、それが実際のアプリケーションで有用である理由を示す。

関連論文リスト

Test-Time Training Done Right [61.8429380523577]
テスト時間トレーニング(TTT)モデルは、推論中にモデルの重みの一部を適応させることによってコンテキストをモデル化する。既存のTT手法は、長文データを扱う上で有効性を示すのに苦労した。我々は,大規模チャンクテストタイムトレーニング(LaCT)を開発し,ハードウェア利用率を桁違いに向上させる。
論文参考訳（メタデータ） (2025-05-29T17:50:34Z)
Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis [64.12708207721276]
本稿では,AR と NAR を統一した新しい擬似自己回帰(PAR)言語モデリング手法を提案する。 PAR 上に構築した PALLE は 2 段階の TTS システムであり, PAR を初期生成に利用し, NAR を改良する。実験では、LibriTTSでトレーニングされたPALLEが、大規模データでトレーニングされた最先端システムを上回っていることが示された。
論文参考訳（メタデータ） (2025-04-14T16:03:21Z)
Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens [31.575335190916995]
本稿では,音声を2つの補完トークンタイプに分解する単一ストリーム音声であるBiCodecを利用した新しいシステムであるSpark-TTSを紹介する。制御可能なTSの研究を容易にするために,包括的な属性アノテーションを備えた10000時間データセットであるVoxBoxを紹介した。
論文参考訳（メタデータ） (2025-03-03T16:23:10Z)
Reasoning to Attend: Try to Understand How <SEG> Token Works [44.33848900059659]
我々は、$texttSEG>$トークンが、画像とテキストのペア内のセマンティックな類似性に寄与していることを示す。本稿では,高活性点の誘導の下で,LMMの高強度な$textbfREA$soning機能を実現するREADを提案する。
論文参考訳（メタデータ） (2024-12-23T17:44:05Z)
V2SFlow: Video-to-Speech Generation with Speech Decomposition and Rectified Flow [57.51550409392103]
本稿では,V2SFlowについて紹介する。V2SFlowは,サイレント・トーキング・フェイス・ビデオから直接自然で分かりやすい音声を生成するために設計された,新しいビデオ音声合成(V2S)フレームワークである。これらの課題に対処するため、音声信号を管理可能な部分空間に分解し、それぞれ異なる音声属性を表現し、視覚入力から直接予測する。これらの予測属性からコヒーレントでリアルな音声を生成するために,Transformerアーキテクチャ上に構築された正流整合デコーダを用いる。
論文参考訳（メタデータ） (2024-11-29T05:55:20Z)
SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。 SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文参考訳（メタデータ） (2024-08-25T17:07:39Z)
Path-LLM: A Shortest-Path-based LLM Learning for Unified Graph Representation [6.401420962078335]
統一グラフ表現を効率的に学習するための新しいパス-LLMモデルを提案する。私たちのフレームワークは、よく設計された4つのテクニックで構成されています。 WalkLMと比較して、我々のアプローチは数百万のグラフ上でのトレーニングパスの90%以上を節約し、少なくとも35倍高速に動作します。
論文参考訳（メタデータ） (2024-08-10T06:35:11Z)
Unified Lexical Representation for Interpretable Visual-Language Alignment [52.059812317944434]
複雑な設計をせずに両方のモダリティを統一した語彙表現を学習するためのフレームワークであるLexVLAを紹介する。我々はDINOv2をローカル言語の特徴の視覚モデルとして使用し、生成言語モデルであるLlamaをテキスト内語彙予測能力の活用に利用した。これら2つの事前学習されたユニモーダルモデルが、控えめなマルチモーダルデータセットを微調整することで、適切に整列できることを実証する。
論文参考訳（メタデータ） (2024-07-25T07:35:27Z)
(PASS) Visual Prompt Locates Good Structure Sparsity through a Recurrent HyperNetwork [60.889175951038496]
大規模ニューラルネットワークは、視覚や言語処理など、さまざまな領域で顕著なパフォーマンスを示している。構造的刈り込みの鍵となる問題のひとつは、チャネルの意義を見積もる方法である。我々は,新しいアルゴリズムフレームワーク,すなわち textttPASS を提案する。視覚的プロンプトとネットワーク重み統計の両方を入力とし、繰り返し的に層ワイドチャネル間隔を出力するように調整されたハイパーネットワークである。
論文参考訳（メタデータ） (2024-07-24T16:47:45Z)
Efficient Link Prediction via GNN Layers Induced by Negative Sampling [86.87385758192566]
リンク予測のためのグラフニューラルネットワーク(GNN)は、緩やかに2つの広いカテゴリに分けられる。本稿では,新しいGNNアーキテクチャを提案する。このアーキテクチャでは,Emphforwardパスは,Emphboth陽性(典型的)と負陰性(アプローチに共通)のエッジに明示的に依存する。これは、埋め込み自体を、正と負のサンプルの分離を好むフォワードパス特異的エネルギー関数の最小化子として再キャストすることで達成される。
論文参考訳（メタデータ） (2023-10-14T07:02:54Z)
RETVec: Resilient and Efficient Text Vectorizer [5.181952693002194]
RETVecは、256次元ベクトル空間に単語を埋め込むために、新しい文字エンコーディングとオプションの小さな埋め込みモデルを組み合わせる。 RETVec埋め込みモデルは、ペアワイドメトリック学習を用いて事前訓練され、タイプミスやキャラクターレベルの敵攻撃に対して堅牢である。
論文参考訳（メタデータ） (2023-02-18T02:06:52Z)
TokenFlow: Rethinking Fine-grained Cross-modal Alignment in Vision-Language Retrieval [30.429340065755436]
我々は, 細粒度クロスモーダルアライメントのためのモデルに依存しない新しい定式化を考案した。最適輸送理論に着想を得て,提案手法のインスタンス化であるemphTokenFlowを紹介した。
論文参考訳（メタデータ） (2022-09-28T04:11:05Z)
Hierarchical Neural Network Approaches for Long Document Classification [3.6700088931938835]
我々は、より効率的な表現を効率よく捉えるために、事前訓練された普遍文(USE)と変換器からの双方向表現(BERT)を階層的に採用する。提案するモデルは概念的に単純であり,入力データをチャンクに分割し,BERTとUSEのベースモデルに渡す。 USE + CNN/LSTM はスタンドアローンのベースラインよりも優れており、BERT + CNN/LSTM はスタンドアローンのベースラインと同等である。
論文参考訳（メタデータ） (2022-01-18T07:17:40Z)
ESPnet2-TTS: Extending the Edge of TTS Research [62.92178873052468]
ESPnet2-TTSは、E2E-TTS(E2E-TTS)ツールキットである。新機能としては、オンザフライフレキシブルプリプロセッシング、ニューラルボコーダとのジョイントトレーニング、フルバンドE2Eテキスト・トゥ・ウェーブフォームモデリングのような拡張を備えた最先端のTSモデルなどがある。
論文参考訳（メタデータ） (2021-10-15T03:27:45Z)
Generating Synthetic Data for Task-Oriented Semantic Parsing with Hierarchical Representations [0.8203855808943658]
本研究では,ニューラルセマンティック解析のための合成データ生成の可能性を検討する。具体的には、まず既存のラベル付き発話からマスク付きテンプレートを抽出し、次に微調整BARTを用いて合成発話条件を生成する。ナビゲーション領域のためのFacebook TOPデータセットを評価する際に、我々のアプローチの可能性を示す。
論文参考訳（メタデータ） (2020-11-03T22:55:40Z)
Learning Reasoning Strategies in End-to-End Differentiable Proving [50.9791149533921]
条件付き定理プローバーは勾配に基づく最適化により最適規則選択戦略を学習する。条件付き定理プローサは拡張性があり、CLUTRRデータセット上で最先端の結果が得られることを示す。
論文参考訳（メタデータ） (2020-07-13T16:22:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。