Fugu-MT 論文翻訳(概要): LibriSQA: Advancing Free-form and Open-ended Spoken Question Answering with a Novel Dataset and Framework

論文の概要: LibriSQA: Advancing Free-form and Open-ended Spoken Question Answering with a Novel Dataset and Framework

arxiv url: http://arxiv.org/abs/2308.10390v3
Date: Wed, 30 Aug 2023 14:55:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-31 16:12:06.854771
Title: LibriSQA: Advancing Free-form and Open-ended Spoken Question Answering with a Novel Dataset and Framework
Title（参考訳）: LibriSQA: 新しいデータセットとフレームワークによるフリーフォームとオープンエンドの回答の改善
Authors: Zihan Zhao, Yiyang Jiang, Heyang Liu, Yanfeng Wang, Yu Wang
Abstract要約: 本稿では,LibriSQAデータセット上でSpoken Question Answering(SQA)タスクを実行するための軽量なエンドツーエンドフレームワークを提案する。 ASRをSQAフォーマットに書き換えることで、ASRタスクの処理におけるフレームワークの機能をさらに裏付ける。我々の経験的発見は、多モーダル情報の整合と解釈に対するLLMの適性を高め、ユニバーサル多モーダルLLMの開発への道を開いた。
参考スコア（独自算出の注目度）: 23.559291506175494
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While Large Language Models (LLMs) have demonstrated commendable performance across a myriad of domains and tasks, existing LLMs still exhibit a palpable deficit in handling multimodal functionalities, especially for the Spoken Question Answering (SQA) task which necessitates precise alignment and deep interaction between speech and text features. To address the SQA challenge on LLMs, we initially curated the free-form and open-ended LibriSQA dataset from Librispeech, comprising Part I with natural conversational formats and Part II encompassing multiple-choice questions followed by answers and analytical segments. Both parts collectively include 107k SQA pairs that cover various topics. Given the evident paucity of existing speech-text LLMs, we propose a lightweight, end-to-end framework to execute the SQA task on the LibriSQA, witnessing significant results. By reforming ASR into the SQA format, we further substantiate our framework's capability in handling ASR tasks. Our empirical findings bolster the LLMs' aptitude for aligning and comprehending multimodal information, paving the way for the development of universal multimodal LLMs. The dataset and demo can be found at https://github.com/ZihanZhaoSJTU/LibriSQA.
Abstract（参考訳）: LLM(Large Language Models)は、多数のドメインやタスクにまたがる可換性を示す一方で、既存のLLMは、特に音声とテキストの特徴間の正確なアライメントと深い相互作用を必要とするSQA(Spoke Question Answering)タスクにおいて、マルチモーダル機能を扱うのに相応しい欠点を示している。 LLMにおけるSQA問題に対処するため、まずLibrispeechから自由形式のオープンエンドLibriSQAデータセットをキュレートした。どちらの部分も、様々なトピックをカバーする107kのSQAペアを含んでいる。既存の音声テキストLLMの明快さを考慮し,SQAタスクをLibriSQA上で実行するための軽量なエンドツーエンドフレームワークを提案する。 ASRをSQAフォーマットに書き換えることで、ASRタスクの処理におけるフレームワークの機能をさらに裏付ける。実験の結果,マルチモーダル情報の整合と理解に対するllmsの適性が高まり,汎用マルチモーダルllmの開発への道筋が開けた。データセットとデモはhttps://github.com/ZihanZhaoSJTU/LibriSQAで見ることができる。

関連論文リスト

SpokenNativQA: Multilingual Everyday Spoken Queries for LLMs [12.60449414234283]
SpokenNativQAは、最初の多言語および文化的に整列された音声質問応答データセットである。データセットは、複数の言語で約33,000の自然に話される質問と回答から構成される。
論文参考訳（メタデータ） (2025-05-25T14:22:18Z)
New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。 MLLM(Multimodal Large Language Models)の試験場として機能する。
論文参考訳（メタデータ） (2025-02-27T13:58:44Z)
News Reporter: A Multi-lingual LLM Framework for Broadcast T.V News [3.4502293745974906]
大規模言語モデル(LLM)は、さまざまなクエリに対して一貫性のある回答を提供する能力のため、多くの会話チャットボットにとって、急速に重要なツールになっている。我々は、米国中の様々なニュースチャンネルからニュース録音から抽出された大量のQAペアを収集し、共有する。我々は,回答の文脈化を改善するためのRAG手法を提案し,それを検証可能なニュース記録に向ける。
論文参考訳（メタデータ） (2024-10-10T01:21:48Z)
Assessing SPARQL capabilities of Large Language Models [0.0]
我々は、SPARQLで動作するLarge Language Modelsのアウトオブザボックス機能の測定に重点を置いています。 LLM-KG-Benchフレームワークにベンチマークタスクを実装し,自動実行と評価を行う。この結果から,SPARQL SELECTクエリの処理はLLMでは依然として困難であることが示唆された。
論文参考訳（メタデータ） (2024-09-09T08:29:39Z)
IDEAL: Leveraging Infinite and Dynamic Characterizations of Large Language Models for Query-focused Summarization [59.06663981902496]
クエリ中心の要約(QFS)は、特定の関心事に答え、より優れたユーザ制御とパーソナライゼーションを可能にする要約を作成することを目的としている。本稿では,LLMを用いたQFSモデル,Longthy Document Summarization,およびクエリ-LLMアライメントの2つの重要な特徴について検討する。これらのイノベーションは、QFS技術分野における幅広い応用とアクセシビリティの道を開いた。
論文参考訳（メタデータ） (2024-07-15T07:14:56Z)
An End-to-End Speech Summarization Using Large Language Model [7.562198375754054]
音声要約(SSum)は、音声コンテンツから人間に似たテキスト要約を生成することを目的としている。大規模言語モデル(LLM)とマルチモーダル情報融合の研究は、新たな洞察をもたらした。本稿では、Q-Formerを音声テキストモダリティのコネクタとして利用するエンドツーエンドのSSumモデルを提案する。
論文参考訳（メタデータ） (2024-07-02T07:22:57Z)
Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文参考訳（メタデータ） (2024-05-26T22:30:29Z)
What Large Language Models Bring to Text-rich VQA? [38.569505870771025]
テキストリッチVQA(英: Text-rich VQA)は、画像中のテキスト認識に基づく視覚的質問応答(Visual Question Answering)であり、画像の理解とテキスト認識の両方を必要とする。上記の懸念に対処するために、外部のOCRモデルを用いて画像中のテキストを認識し、Large Language Models (LLMs) を用いて質問に答える。このパイプラインは、既存のMLLM(Multimodal Large Language Models)の4つのテキストリッチなVQAデータセットと比較して、優れたパフォーマンスを実現した。
論文参考訳（メタデータ） (2023-11-13T12:52:29Z)
SEMQA: Semi-Extractive Multi-Source Question Answering [94.04430035121136]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文参考訳（メタデータ） (2023-11-08T18:46:32Z)
MMHQA-ICL: Multimodal In-context Learning for Hybrid Question Answering over Text, Tables and Images [24.17147521556083]
コンテキスト内学習はQA問題を解決する最も一般的な方法となっている。この問題に対処するためのMMHQA-ICLフレームワークを提案する。私たちは、このタスクにエンドツーエンドのプロンプトメソッドを最初に使用しています。
論文参考訳（メタデータ） (2023-09-09T13:35:01Z)
RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文参考訳（メタデータ） (2023-05-23T17:53:38Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)
From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models [111.42052290293965]
大規模言語モデル(LLM)は、新しい言語タスクに対して優れたゼロショット一般化を証明している。視覚と言語データに対するエンドツーエンドのトレーニングは、切断を橋渡しするかもしれないが、柔軟性がなく、計算コストがかかる。上述したモダリティとタスクの切断をブリッジできるプロンプトを提供するプラグイン・アンド・プレイモジュールであるemphImg2Promptを提案する。
論文参考訳（メタデータ） (2022-12-21T08:39:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。