論文の概要: The Solution for the ICCV 2023 Perception Test Challenge 2023 -- Task 6 -- Grounded videoQA
- arxiv url: http://arxiv.org/abs/2407.01907v1
- Date: Tue, 2 Jul 2024 03:13:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 16:53:49.203563
- Title: The Solution for the ICCV 2023 Perception Test Challenge 2023 -- Task 6 -- Grounded videoQA
- Title(参考訳): ICCV 2023パーセプションテストチャレンジの解決 -- 第6タスク -- グラウンドド・ビデオQA
- Authors: Hailiang Zhang, Dian Chao, Zhihao Guan, Yang Yang,
- Abstract要約: 本研究により,ビデオ質問応答のための固定されたベースライン法は,視覚的グラウンドと物体追跡の2つの主要なステップを含むことが明らかとなった。
最初のステップでは、選択されたフレームが明確に識別可能なターゲットオブジェクトを欠いている可能性がある。
- 参考スコア(独自算出の注目度): 3.38659196496483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a grounded video question-answering solution. Our research reveals that the fixed official baseline method for video question answering involves two main steps: visual grounding and object tracking. However, a significant challenge emerges during the initial step, where selected frames may lack clearly identifiable target objects. Furthermore, single images cannot address questions like "Track the container from which the person pours the first time." To tackle this issue, we propose an alternative two-stage approach:(1) First, we leverage the VALOR model to answer questions based on video information.(2) concatenate the answered questions with their respective answers. Finally, we employ TubeDETR to generate bounding boxes for the targets.
- Abstract(参考訳): 本稿では,地上ビデオ質問応答ソリューションを提案する。
本研究により,ビデオ質問応答のための固定されたベースライン法は,視覚的グラウンドと物体追跡の2つの主要なステップを含むことが明らかとなった。
しかし、選択されたフレームが明確に識別可能なターゲットオブジェクトを欠いている可能性がある最初のステップで重要な課題が現れる。
さらに、単一の画像は「最初に注ぐ容器をトラックする」といった問題に対処できない。
まず,VALORモデルを利用して,映像情報に基づく質問に答える手法を提案する。
2) 回答された質問をそれぞれの回答にまとめる。
最後に、ターゲットのバウンディングボックスを生成するためにTubeDETRを使用します。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - Second Place Solution of WSDM2023 Toloka Visual Question Answering Challenge [9.915564470970049]
We present our solution for the WSDM2023 Toloka Visual Question Answering Challenge。
マルチモーダル事前学習モデルの適用に触発されて,我々は3段階のソリューションを設計した。
我々のチームは最終予選で76.342点を獲得し、ランキング2位となった。
論文 参考訳(メタデータ) (2024-07-05T04:56:05Z) - Hallucination Mitigation Prompts Long-term Video Understanding [36.26790392889717]
本稿では,既存のMLLMをベースとした包括的幻覚緩和パイプラインを構築する。
私たちは、CLIPスコアを使用して、フレームサンプリングプロセスを質問でガイドし、質問に関連する重要なフレームを選択する。
回答生成段階では、チェーン・オブ・コンテクストとイン・コンテクスト・ラーニングの手法を用いて、回答の生成を明示的に制御する。
論文 参考訳(メタデータ) (2024-06-17T08:44:03Z) - Solution for Point Tracking Task of ICCV 1st Perception Test Challenge 2023 [50.910598799408326]
Tracking Any Point (TAP) タスクは、ビデオを通じて任意の物理的表面を追跡する。
既存のいくつかのアプローチは、スムーズな運動軌跡を得るための時間的関係を考慮し、TAPを探索してきた。
我々は,静的カメラが撮影したビデオの静的点追跡の修正に焦点を当てた,信頼度の高い静的点付きTAP(TAPIR+)を提案する。
論文 参考訳(メタデータ) (2024-03-26T13:50:39Z) - Perception Test 2023: A Summary of the First Challenge And Outcome [67.0525378209708]
最初のパーセプションテストは、IEEE/CVF International Conference on Computer Vision (ICCV) 2023と共に半日間のワークショップとして開催された。
目標は、最近提案されたPerception Testベンチマークで最先端のビデオモデルをベンチマークすることであった。
このレポートでは、タスク記述、メトリクス、ベースライン、結果について要約しています。
論文 参考訳(メタデータ) (2023-12-20T15:12:27Z) - Locate before Answering: Answer Guided Question Localization for Video
Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-05T08:19:16Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z) - Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。
カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。
提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-05-11T07:45:32Z) - End-to-End Video Question-Answer Generation with Generator-Pretester
Network [27.31969951281815]
マルチメディアにおけるビデオ質問応答(VQA)課題に対するビデオ質問応答生成(VQAG)の課題について検討する。
キャプションはビデオを完全に表現してはいないし、実際に利用できないので、VQAG(Video Question-Answer Generation)によるビデオに基づいて質問対を生成することが不可欠である。
我々は,現在利用可能な2つの大規模ビデオQAデータセットで評価し,最先端の質問生成性能を実現する。
論文 参考訳(メタデータ) (2021-01-05T10:46:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。