論文の概要: PolySmart @ TRECVid 2024 Medical Video Question Answering
- arxiv url: http://arxiv.org/abs/2412.15514v1
- Date: Fri, 20 Dec 2024 02:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:23:00.161601
- Title: PolySmart @ TRECVid 2024 Medical Video Question Answering
- Title(参考訳): PolySmart @TRECVid 2024 医療ビデオの質問に答える
- Authors: Jiaxin Wu, Yiyang Jiang, Xiao-Yong Wei, Qing Li,
- Abstract要約: 我々は,GPT4 が生成した映像の類似性と回答に基づいて,テキスト・テキスト検索を用いて関連ビデオの検索を行う。
視覚応答のローカライゼーションでは、応答の開始と終了のタイムスタンプは、ビジュアルコンテンツとサブタイトルの両方をクエリでアライメントすることによって予測される。
- 参考スコア(独自算出の注目度): 12.23850299349098
- License:
- Abstract: Video Corpus Visual Answer Localization (VCVAL) includes question-related video retrieval and visual answer localization in the videos. Specifically, we use text-to-text retrieval to find relevant videos for a medical question based on the similarity of video transcript and answers generated by GPT4. For the visual answer localization, the start and end timestamps of the answer are predicted by the alignments on both visual content and subtitles with queries. For the Query-Focused Instructional Step Captioning (QFISC) task, the step captions are generated by GPT4. Specifically, we provide the video captions generated by the LLaVA-Next-Video model and the video subtitles with timestamps as context, and ask GPT4 to generate step captions for the given medical query. We only submit one run for evaluation and it obtains a F-score of 11.92 and mean IoU of 9.6527.
- Abstract(参考訳): Video Corpus Visual Answer Localization (VCVAL)には、ビデオ内の質問関連ビデオ検索と視覚応答のローカライゼーションが含まれている。
具体的には、GPT4 が生成したビデオの類似性と回答に基づいて、テキストからテキストまでの検索を用いて、関連ビデオの検索を行う。
視覚応答のローカライゼーションでは、応答の開始と終了のタイムスタンプは、ビジュアルコンテンツとサブタイトルの両方をクエリでアライメントすることによって予測される。
Query-Focused Instructional Step Captioning (QFISC)タスクでは、ステップキャプションはGPT4によって生成される。
具体的には、LLaVA-Next-Videoモデルで生成されたビデオキャプションと、タイムスタンプをコンテキストとするビデオ字幕を提供し、GPT4に所定の医療クエリのステップキャプションを生成する。
評価対象は1回のみであり、Fスコアは11.92、IoUは9.6527である。
関連論文リスト
- Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval? [131.300931102986]
現実のシナリオでは、オンラインビデオにはタイトルやタグ、サブタイトルなど、関連するテキスト情報が添付されることが多い。
そこで本研究では,ゼロショットビデオキャプションを用いて動画から関連キャプションを直接生成する手法を提案する。
我々は,我々のアプローチの有効性を実証する包括的アブレーション研究を行っている。
論文 参考訳(メタデータ) (2022-12-31T11:50:32Z) - PromptCap: Prompt-Guided Task-Aware Image Captioning [118.39243917422492]
本稿では,画像とブラックボックスLMのより良いコネクタとして設計されたキャプションモデルであるPromptCapを提案する。
PromptCapは、生成されたキャプションで記述する視覚エンティティを制御するために自然言語プロンプトを使用する。
本稿では,GPT-3に画像キャプションを付加してVQAを実行する既存のパイプライン上で,PromptCapの有効性を示す。
論文 参考訳(メタデータ) (2022-11-15T19:07:53Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。