論文の概要: Spoken question answering for visual queries
- arxiv url: http://arxiv.org/abs/2505.23308v1
- Date: Thu, 29 May 2025 10:06:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.80417
- Title: Spoken question answering for visual queries
- Title(参考訳): 視覚的クエリに対する音声質問応答
- Authors: Nimrod Shabtay, Zvi Kons, Avihu Dekel, Hagai Aronowitz, Ron Hoory, Assaf Arbelle,
- Abstract要約: 本研究の目的は,音声と画像の両方を通じてユーザインタラクションを可能にするシステムを構築することである。
結果として得られるマルチモーダルモデルは、テキスト、ビジュアル、および音声入力を持ち、画像上の音声質問に答えることができる。
- 参考スコア(独自算出の注目度): 14.834200714168546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Question answering (QA) systems are designed to answer natural language questions. Visual QA (VQA) and Spoken QA (SQA) systems extend the textual QA system to accept visual and spoken input respectively. This work aims to create a system that enables user interaction through both speech and images. That is achieved through the fusion of text, speech, and image modalities to tackle the task of spoken VQA (SVQA). The resulting multi-modal model has textual, visual, and spoken inputs and can answer spoken questions on images. Training and evaluating SVQA models requires a dataset for all three modalities, but no such dataset currently exists. We address this problem by synthesizing VQA datasets using two zero-shot TTS models. Our initial findings indicate that a model trained only with synthesized speech nearly reaches the performance of the upper-bounding model trained on textual QAs. In addition, we show that the choice of the TTS model has a minor impact on accuracy.
- Abstract(参考訳): 質問応答システム(QA)は、自然言語の質問に答えるように設計されている。
Visual QA (VQA) と Spoken QA (SQA) はテキストQAシステムを拡張して視覚入力と音声入力をそれぞれ受け入れる。
本研究の目的は,音声と画像の両方を通じてユーザインタラクションを可能にするシステムを構築することである。
これは、音声VQA(SVQA)の課題に取り組むために、テキスト、音声、画像のモダリティの融合によって達成される。
結果として得られるマルチモーダルモデルは、テキスト、ビジュアル、および音声入力を持ち、画像上の音声質問に答えることができる。
SVQAモデルのトレーニングと評価には、3つのモードすべてに対するデータセットが必要であるが、現時点ではそのようなデータセットは存在しない。
2つのゼロショットTSモデルを用いてVQAデータセットを合成することでこの問題に対処する。
最初の結果から,合成音声のみを訓練したモデルが,テキストQAで訓練した上界モデルの性能にほぼ達していることが示唆された。
さらに,TTSモデルの選択が精度にわずかな影響を与えていることを示す。
関連論文リスト
- Generalizing Visual Question Answering from Synthetic to Human-Written Questions via a Chain of QA with a Large Language Model [4.41132900194195]
人手による質問(CoQAH)に対するQAの連鎖という新しい手法を提案する。
CoQAHは、大言語モデルと合成データに基づいて訓練されたVQAモデルの間の一連のQA相互作用を利用して、人間による質問に対して論理的回答を導出する。
我々は,3Dレンダー画像と胸部X線画像の2種類のVQAデータセットに対するCoQAHの有効性を検証した。
論文 参考訳(メタデータ) (2024-01-12T06:49:49Z) - Zero-shot Translation of Attention Patterns in VQA Models to Natural
Language [65.94419474119162]
ZS-A2Tは、トレーニングを必要とせずに、与えられたモデルのトランスフォーマーアテンションを自然言語に変換するフレームワークである。
我々はこれを視覚質問回答(VQA)の文脈で考える。
私たちのフレームワークはトレーニングを一切必要とせず、異なるガイドソースをドロップインで置き換えることができます。
論文 参考訳(メタデータ) (2023-11-08T22:18:53Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - Zero-Shot Video Question Answering via Frozen Bidirectional Language
Models [89.71617065426146]
ビデオ質問応答(Video QA)は、訓練に多様なマルチモーダルデータを必要とする複雑なタスクである。
近年の手法では,手動による視覚的質問応答を伴わないゼロショット設定が検討されている。
我々は,凍結自己回帰言語モデル (BiLM) 上に構築し,この手法がゼロショットビデオQAに対してより強力で安価な代替手段を提供することを示す。
論文 参考訳(メタデータ) (2022-06-16T13:18:20Z) - Image Captioning for Effective Use of Language Models in Knowledge-Based
Visual Question Answering [17.51860125438028]
本稿では,画像と事前学習言語モデルの自動キャプションに基づく,単文のみの列車と推論手法を提案する。
外部知識 (OK-VQA) を必要とする視覚的質問応答タスクの結果, テキストのみのモデルは, パラメータ数に匹敵する事前学習されたマルチモーダル(画像-テキスト)モデルよりも優れていた。
論文 参考訳(メタデータ) (2021-09-15T14:11:29Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。