論文の概要: Llamipa: An Incremental Discourse Parser
- arxiv url: http://arxiv.org/abs/2406.18256v2
- Date: Wed, 02 Oct 2024 08:28:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:17:28.767608
- Title: Llamipa: An Incremental Discourse Parser
- Title(参考訳): Llamipa: インクリメンタルな談話パーザ
- Authors: Kate Thompson, Akshay Chaturvedi, Julie Hunter, Nicholas Asher,
- Abstract要約: 本稿では,SDRT方式でコーパスを微調整した大規模言語モデルを用いた最初の談話解析実験について述べる。
ダウンストリームタスクにおける言論情報の最終的な使用に不可欠な言論データを処理することができる。
- 参考スコア(独自算出の注目度): 6.9534924995446055
- License:
- Abstract: This paper provides the first discourse parsing experiments with a large language model(LLM) finetuned on corpora annotated in the style of SDRT (Segmented Discourse Representation Theory Asher, 1993; Asher and Lascarides, 2003). The result is a discourse parser, Llamipa (Llama Incremental Parser), that leverages discourse context, leading to substantial performance gains over approaches that use encoder-only models to provide local, context-sensitive representations of discourse units. Furthermore, it can process discourse data incrementally, which is essential for the eventual use of discourse information in downstream tasks.
- Abstract(参考訳): 本稿では,SDRT(Segmented Discourse Representation Theory Asher, 1993; Asher and Lascarides, 2003)のスタイルで注釈付けされたコーパスを微調整した大規模言語モデル(LLM)を用いた最初の談話解析実験について述べる。
その結果、談話パーサーであるLlamipa (Llama Incremental Parser) が、談話コンテキストを活用することで、談話単位の局所的、文脈に敏感な表現を提供するエンコーダのみのモデルを使用するアプローチよりも大幅にパフォーマンスが向上する。
さらに、下流タスクにおける言論情報の最終的な利用に欠かせない言論データを漸進的に処理することができる。
関連論文リスト
- STAB: Speech Tokenizer Assessment Benchmark [57.45234921100835]
音声を離散トークンとして表現することは、音声をテキストによく似たフォーマットに変換するためのフレームワークを提供する。
Speech Tokenizer Assessment Benchmark(STAB)は,音声トークンを包括的に評価するシステム評価フレームワークである。
我々はSTABのメトリクスを評価し、これを音声タスクやトークン化ツールの選択の範囲でダウンストリームタスクのパフォーマンスと相関付けする。
論文 参考訳(メタデータ) (2024-09-04T02:20:59Z) - DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。
我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。
これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-27T03:52:35Z) - Growing Trees on Sounds: Assessing Strategies for End-to-End Dependency Parsing of Speech [8.550564152063522]
音声解析における2つの解析パラダイムの性能評価を目的とした一連の実験について報告する。
我々はこの評価をフランス語の大きな木バンクで行い、現実的な自発的な会話を特徴とする。
その結果, (i) グラフに基づく手法は, (ii) パラメータが30%少ないにもかかわらず, (ii) 音声から直接解析することで, パイプライン手法よりも優れた結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-06-18T13:46:10Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Understanding Shared Speech-Text Representations [34.45772613231558]
Mae-Stroは、エンドツーエンドモデルにテキストを組み込むことで、音声モデルを訓練するアプローチを開発した。
音声テキストアライメントのためのコーパス固有持続時間モデルが,共有音声テキスト表現を学習する上で最も重要な要素であることが判明した。
共有エンコーダは、ユニモーダルエンコーダよりもコンパクトで重なり合う音声テキスト表現を学習する。
論文 参考訳(メタデータ) (2023-04-27T20:05:36Z) - Towards Domain-Independent Supervised Discourse Parsing Through Gradient
Boosting [30.615883375573432]
本稿では、談話解析におけるドメイン適応問題に直接対処する新しい、教師付きパラダイムを提案する。
具体的には、弱勾配分類器の段階モデルを用いて、ドメイン依存性を緩和するために設計された最初の完全教師付き談話フレームワークを紹介する。
論文 参考訳(メタデータ) (2022-10-18T03:44:27Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Unleashing the Power of Neural Discourse Parsers -- A Context and
Structure Aware Approach Using Large Scale Pretraining [26.517219486173598]
RSTに基づく談話解析は、要約、機械翻訳、意見マイニングなど、多くの下流アプリケーションにおいて重要なNLPタスクである。
本稿では,近年の文脈言語モデルを取り入れた,シンプルかつ高精度な談話解析について述べる。
RST-DTとInstr-DTの2つの主要なRTTデータセットにおける構造と核性を予測するための新しい最先端(SOTA)性能を確立する。
論文 参考訳(メタデータ) (2020-11-06T06:11:26Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - An Effective Contextual Language Modeling Framework for Speech
Summarization with Augmented Features [13.97006782398121]
変換器による双方向表現(BERT)モデルが提案され,多くの自然言語処理タスクにおいて記録破りの成功を収めた。
本研究では,不完全な自動音声認識によるネガティブな影響を軽減するために,信頼度スコアを文表現に組み込むことを検討した。
提案手法の有効性をベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-06-01T18:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。