論文の概要: Ask2Loc: Learning to Locate Instructional Visual Answers by Asking Questions
- arxiv url: http://arxiv.org/abs/2504.15918v2
- Date: Wed, 23 Apr 2025 03:01:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.794083
- Title: Ask2Loc: Learning to Locate Instructional Visual Answers by Asking Questions
- Title(参考訳): Ask2Loc: 質問による指導的視覚的回答の抽出
- Authors: Chang Zong, Bin Li, Shoujun Zhou, Jian Wan, Lei Zhang,
- Abstract要約: 本稿では,人間とビデオの相互作用をシミュレートする新しいタスクIn-VALを提案する。
In-VALを問うことで解決するフレームワークであるAsk2Locを提案する。
従来のエンドツーエンドと2段階の手法と比較して,提案したAsk2Locは,In-VALタスクにおいて最大14.91(mIoU)の性能を向上させることができる。
- 参考スコア(独自算出の注目度): 9.079581428278482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Locating specific segments within an instructional video is an efficient way to acquire guiding knowledge. Generally, the task of obtaining video segments for both verbal explanations and visual demonstrations is known as visual answer localization (VAL). However, users often need multiple interactions to obtain answers that align with their expectations when using the system. During these interactions, humans deepen their understanding of the video content by asking themselves questions, thereby accurately identifying the location. Therefore, we propose a new task, named In-VAL, to simulate the multiple interactions between humans and videos in the procedure of obtaining visual answers. The In-VAL task requires interactively addressing several semantic gap issues, including 1) the ambiguity of user intent in the input questions, 2) the incompleteness of language in video subtitles, and 3) the fragmentation of content in video segments. To address these issues, we propose Ask2Loc, a framework for resolving In-VAL by asking questions. It includes three key modules: 1) a chatting module to refine initial questions and uncover clear intentions, 2) a rewriting module to generate fluent language and create complete descriptions, and 3) a searching module to broaden local context and provide integrated content. We conduct extensive experiments on three reconstructed In-VAL datasets. Compared to traditional end-to-end and two-stage methods, our proposed Ask2Loc can improve performance by up to 14.91 (mIoU) on the In-VAL task. Our code and datasets can be accessed at https://github.com/changzong/Ask2Loc.
- Abstract(参考訳): 指導ビデオ内に特定のセグメントを置くことは、指導的知識を得るための効果的な方法である。
一般に、音声説明と視覚的デモンストレーションの両方のためのビデオセグメントを取得するタスクは、視覚応答ローカライゼーション(VAL)として知られている。
しかし、ユーザーはシステムを使う際に期待に沿う回答を得るために、しばしば複数の対話が必要である。
これらの相互作用の間、人間は自身の質問によってビデオの内容の理解を深め、それによって位置を正確に識別する。
そこで本研究では,視覚的回答を得る過程において,人間とビデオ間の複数のインタラクションをシミュレートするタスクIn-VALを提案する。
In-VALタスクでは、いくつかのセマンティックギャップの問題に対話的に対処する必要がある。
1)入力質問におけるユーザ意図の曖昧さ
2)ビデオ字幕における言語の不完全性,及び
3)ビデオセグメント内のコンテンツの断片化。
これらの問題に対処するために,質問によってIn-VALを解決するためのフレームワークであるAsk2Locを提案する。
主なモジュールは3つある。
1)最初の質問を洗練し、明確な意図を明らかにするためのチャットモジュール。
2)流動的な言語を生成し、完全な記述を作成する書き換えモジュール
3)ローカルコンテキストを拡張し、統合されたコンテンツを提供する検索モジュール。
再建した3つのIn-VALデータセットについて広範な実験を行った。
従来のエンドツーエンドと2段階の手法と比較して,提案したAsk2Locは,In-VALタスクにおいて最大14.91(mIoU)の性能を向上させることができる。
私たちのコードとデータセットはhttps://github.com/changzong/Ask2Loc.orgでアクセスできます。
関連論文リスト
- Boosting Audio Visual Question Answering via Key Semantic-Aware Cues [8.526720031181027]
AVQA(Audio Visual Question Answering)タスクは、ビデオにおける様々な視覚オブジェクト、音、およびそれらの相互作用に関する質問に答えることを目的としている。
本研究は, 時間空間知覚モデル(TSPM, Temporal-Spatial Perception Model)を提案する。
論文 参考訳(メタデータ) (2024-07-30T09:41:37Z) - VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。
このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。
本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文 参考訳(メタデータ) (2024-07-16T02:29:29Z) - Answering Diverse Questions via Text Attached with Key Audio-Visual
Clues [24.347420432207283]
本稿では,相互相関蒸留(MCD)を行うための枠組みを提案する。
提案手法は,複数の問合せ対を含む2つの公開データセットに対して評価する。
論文 参考訳(メタデータ) (2024-03-11T12:51:37Z) - SOVC: Subject-Oriented Video Captioning [59.04029220586337]
本稿では,ビデオキャプションタスクであるSOVC(Subject-Oriented Video Captioning)を提案する。
この課題を支援するために、広く使われている2つのビデオキャプションデータセットに基づいて、2つの主観的ビデオキャプションデータセットを構築した。
論文 参考訳(メタデータ) (2023-12-20T17:44:32Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - Learning to Locate Visual Answer in Video Corpus Using Question [21.88924465126168]
本稿では,ビデオコーパス視覚応答のローカライゼーション(VCVAL)という新しいタスクを導入する。
本稿では,ビデオコーパス検索と視覚応答ローカライゼーションサブタスクを共同でトレーニングする,VCVALのためのクロスモーダル・コントラッシブ・グローバルスパン(CCGS)手法を提案する。
実験の結果,提案手法はビデオコーパス検索および視覚応答の局所化サブタスクにおいて,他の競合手法よりも優れていた。
論文 参考訳(メタデータ) (2022-10-11T13:04:59Z) - Locate before Answering: Answer Guided Question Localization for Video
Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-05T08:19:16Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Fill-in-the-blank as a Challenging Video Understanding Evaluation
Framework [19.031957183047048]
28,000の動画と補足テストからなる新しいデータセットを導入する。
マルチモーダルモデルと強力な言語モデルの両方が、人間のパフォーマンスに大きなギャップがあることが示される。
論文 参考訳(メタデータ) (2021-04-09T04:00:10Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - Multi-View Attention Network for Visual Dialog [5.731758300670842]
1) エージェントが質問の意味的意図を判断し, 2) 質問関連テキスト, 視覚的内容の調整を行う必要がある。
異種入力に関する複数のビューを利用するマルチビュー注意ネットワーク(MVAN)を提案する。
MVANは、2つの補完モジュールでダイアログ履歴から質問関連情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。