論文の概要: wav2graph: A Framework for Supervised Learning Knowledge Graph from Speech
- arxiv url: http://arxiv.org/abs/2408.04174v1
- Date: Thu, 8 Aug 2024 02:36:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 16:50:38.496934
- Title: wav2graph: A Framework for Supervised Learning Knowledge Graph from Speech
- Title(参考訳): wav2graph: 音声による教師付き学習知識グラフのためのフレームワーク
- Authors: Khai Le-Duc, Quy-Anh Dang, Tan-Hanh Pham, Truong-Son Hy,
- Abstract要約: 音声データからグラフを教師する最初のフレームワークであるwav2graphを紹介する。
パイプラインは,(1)書き起こされた音声音声と名前付きエンティティデータベースに基づいてKGを構築すること,(2)KGを埋め込みベクトルに変換すること,(3)ノード分類とリンク予測タスクのためのグラフニューラルネットワーク(GNN)を訓練すること,である。
- 参考スコア(独自算出の注目度): 1.387448620257867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge graphs (KGs) enhance the performance of large language models (LLMs) and search engines by providing structured, interconnected data that improves reasoning and context-awareness. However, KGs only focus on text data, thereby neglecting other modalities such as speech. In this work, we introduce wav2graph, the first framework for supervised learning knowledge graph from speech data. Our pipeline are straightforward: (1) constructing a KG based on transcribed spoken utterances and a named entity database, (2) converting KG into embedding vectors, and (3) training graph neural networks (GNNs) for node classification and link prediction tasks. Through extensive experiments conducted in inductive and transductive learning contexts using state-of-the-art GNN models, we provide baseline results and error analysis for node classification and link prediction tasks on human transcripts and automatic speech recognition (ASR) transcripts, including evaluations using both encoder-based and decoder-based node embeddings, as well as monolingual and multilingual acoustic pre-trained models. All related code, data, and models are published online.
- Abstract(参考訳): 知識グラフ(KG)は、推論と文脈認識を改善する構造化された相互接続データを提供することで、大規模言語モデル(LLM)と検索エンジンのパフォーマンスを向上させる。
しかし、KGはテキストデータのみに焦点を合わせ、音声などの他のモダリティを無視する。
本稿では,音声データから学習知識グラフを教師する最初のフレームワークであるwav2graphを紹介する。
パイプラインは,(1)書き起こされた音声音声と名前付きエンティティデータベースに基づいてKGを構築すること,(2)KGを埋め込みベクトルに変換すること,(3)ノード分類とリンク予測タスクのためのグラフニューラルネットワーク(GNN)を訓練すること,である。
最新のGNNモデルを用いて帰納的・帰納的学習の文脈で行った広範な実験を通じて、人間の転写におけるノード分類とリンク予測タスクのベースライン結果とエラー解析、および、エンコーダベースとデコーダベース両方のノード埋め込みを用いた評価を含む自動音声認識(ASR)トランスクリプト、およびモノリンガルおよびマルチリンガル音響事前学習モデルを提供する。
関連するコード、データ、モデルはすべてオンラインで公開されている。
関連論文リスト
- Pre-Training and Prompting for Few-Shot Node Classification on Text-Attributed Graphs [35.44563283531432]
テキスト分散グラフ(英: Text-attributed graph、TAG)は、生のテキストに関連付けられた各ノードを持つ、現実世界の重要なグラフ構造化データの一種である。
TAGでは、従来の数発のノード分類手法が、事前処理されたノード機能で直接トレーニングを行う。
P2TAGは、グラフ事前学習とプロンプトを備えたTAG上の少数ショットノード分類のためのフレームワークである。
論文 参考訳(メタデータ) (2024-07-22T07:24:21Z) - Deep Bidirectional Language-Knowledge Graph Pretraining [159.9645181522436]
DRAGONは、テキストとKGを大規模に融合した言語知識基盤モデルを事前学習するための自己教師型アプローチである。
我々のモデルは、入力としてテキストセグメントと関連するKGサブグラフのペアを取り、両モードから情報を双方向に融合する。
論文 参考訳(メタデータ) (2022-10-17T18:02:52Z) - Neural Graph Matching for Pre-training Graph Neural Networks [72.32801428070749]
グラフニューラルネットワーク(GNN)は、構造データのモデリングにおいて強力な能力を示している。
GMPTと呼ばれる新しいグラフマッチングベースのGNN事前学習フレームワークを提案する。
提案手法は,完全自己指導型プレトレーニングと粗粒型プレトレーニングに適用できる。
論文 参考訳(メタデータ) (2022-03-03T09:53:53Z) - Training Free Graph Neural Networks for Graph Matching [103.45755859119035]
TFGMは、グラフニューラルネットワーク(GNN)ベースのグラフマッチングのパフォーマンスをトレーニングなしで向上するフレームワークである。
TFGMをさまざまなGNNに適用することは、ベースラインよりも有望な改善を示している。
論文 参考訳(メタデータ) (2022-01-14T09:04:46Z) - Noise-robust Graph Learning by Estimating and Leveraging Pairwise
Interactions [123.07967420310796]
本稿では,グラフ上のノイズノード分類のためのペアワイズフレームワークを提案することにより,そのギャップを埋める。
PI-GNNは、ノイズの多いノードクラスラベルからのポイントワイズ学習に加えて、PIを一次学習プロキシとして依存している。
提案するフレームワークPI-GNNは,(1)PIラベルを適応的に推定する信頼度を考慮したPI推定モデル,(2)PIラベルを推定する疎結合トレーニング手法の2つの新しい構成要素に寄与する。
論文 参考訳(メタデータ) (2021-06-14T14:23:08Z) - Few-shot Knowledge Graph-to-Text Generation with Pretrained Language
Models [42.38563175680914]
本稿では,知識グラフ(KG)の事実を記述した自然言語テキストの自動生成方法について検討する。
数ショットの設定を考えると、言語理解と生成において事前学習された言語モデル(PLM)の優れた能力を利用する。
論文 参考訳(メタデータ) (2021-06-03T06:48:00Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。