論文の概要: Hallucination Mitigation Prompts Long-term Video Understanding
- arxiv url: http://arxiv.org/abs/2406.11333v1
- Date: Mon, 17 Jun 2024 08:44:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 15:41:08.135870
- Title: Hallucination Mitigation Prompts Long-term Video Understanding
- Title(参考訳): 幻覚の緩和が長期的ビデオ理解を促進する
- Authors: Yiwei Sun, Zhihang Liu, Chuanbin Liu, Bowei Pu, Zhihan Zhang, Hongtao Xie,
- Abstract要約: 本稿では,既存のMLLMをベースとした包括的幻覚緩和パイプラインを構築する。
私たちは、CLIPスコアを使用して、フレームサンプリングプロセスを質問でガイドし、質問に関連する重要なフレームを選択する。
回答生成段階では、チェーン・オブ・コンテクストとイン・コンテクスト・ラーニングの手法を用いて、回答の生成を明示的に制御する。
- 参考スコア(独自算出の注目度): 36.26790392889717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, multimodal large language models have made significant advancements in video understanding tasks. However, their ability to understand unprocessed long videos is very limited, primarily due to the difficulty in supporting the enormous memory overhead. Although existing methods achieve a balance between memory and information by aggregating frames, they inevitably introduce the severe hallucination issue. To address this issue, this paper constructs a comprehensive hallucination mitigation pipeline based on existing MLLMs. Specifically, we use the CLIP Score to guide the frame sampling process with questions, selecting key frames relevant to the question. Then, We inject question information into the queries of the image Q-former to obtain more important visual features. Finally, during the answer generation stage, we utilize chain-of-thought and in-context learning techniques to explicitly control the generation of answers. It is worth mentioning that for the breakpoint mode, we found that image understanding models achieved better results than video understanding models. Therefore, we aggregated the answers from both types of models using a comparison mechanism. Ultimately, We achieved 84.2\% and 62.9\% for the global and breakpoint modes respectively on the MovieChat dataset, surpassing the official baseline model by 29.1\% and 24.1\%. Moreover the proposed method won the third place in the CVPR LOVEU 2024 Long-Term Video Question Answering Challenge. The code is avaiable at https://github.com/lntzm/CVPR24Track-LongVideo
- Abstract(参考訳): 近年,マルチモーダルな大言語モデルがビデオ理解タスクにおいて大きな進歩を遂げている。
しかし、処理されていない長いビデオを理解する能力は、主に巨大なメモリオーバーヘッドをサポートするのが難しいため、非常に限られている。
既存の手法はフレームを集約することでメモリと情報のバランスを保っているが、必然的に深刻な幻覚の問題を提起している。
この問題に対処するため,既存のMLLMをベースとした包括的幻覚軽減パイプラインを構築した。
具体的には、CLIPスコアを用いて、質問のフレームサンプリングプロセスをガイドし、質問に関連する重要なフレームを選択する。
次に、画像Q-formerのクエリに質問情報を注入し、より重要な視覚的特徴を得る。
最後に、回答生成段階では、チェーン・オブ・コンテクストとイン・コンテクスト・ラーニングの手法を用いて、回答の生成を明示的に制御する。
ブレークポイントモードでは、画像理解モデルの方がビデオ理解モデルよりも優れた結果が得られることが分かりました。
そこで我々は,比較機構を用いて,両モデルから回答を集約した。
最終的に、MovieChatデータセットでは、それぞれグローバルモードとブレークポイントモードで84.2\%と62.9\%を獲得し、公式ベースラインモデルでは29.1\%と24.1\%を上回りました。
さらに,提案手法はCVPR LOVEU 2024 Long-Term Video Question Answering Challengeで3位を獲得した。
コードはhttps://github.com/lntzm/CVPR24Track-LongVideoにある。
関連論文リスト
- LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。
私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。
我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2024-07-22T16:00:55Z) - Goldfish: Vision-Language Understanding of Arbitrarily Long Videos [51.547065479762715]
任意の長さのビデオの解釈に適した手法を提案する。
また,TVQA-longベンチマークを導入し,視覚とテキストコンテンツの両方に疑問を呈する長編ビデオの理解におけるモデルの能力を評価する。
以上の結果から,本モデルでは長大・短大双方の理解が大幅に改善されていることが示唆された。
論文 参考訳(メタデータ) (2024-07-17T15:59:32Z) - Encoding and Controlling Global Semantics for Long-form Video Question Answering [40.129800076300434]
我々は、ビデオのグローバルなセマンティクスを効率的に統合するために、状態空間層(SSL)をマルチモーダルトランスフォーマーに導入する。
私たちのSSLには、グローバルなセマンティクスから視覚表現へのフローを制御可能にするゲーティングユニットが含まれています。
長大なビデオQA能力を評価するため,Ego-QAとMAD-QAの2つの新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-05-30T06:10:10Z) - Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering [11.244643114253773]
Video Question(ビデオQA)は、ビデオで観察される情報に基づいて、自然言語の質問に答えることを目的としている。
視覚的な入力として疑問クリティカルな瞬間に答えを推論するために,LMMを強制する,弱い教師付きフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-19T14:21:46Z) - A Simple LLM Framework for Long-Range Video Question-Answering [63.50439701867275]
長距離ビデオ質問応答(LVQA)のための言語ベースのフレームワークであるLLoViを提案する。
我々のアプローチでは、フレーム/クリップレベルの視覚キャプタと大言語モデル(GPT-3.5, GPT-4)を併用する。
提案手法は50.3%の精度を達成し,従来のベストパフォーマンスアプローチを18.1%(絶対ゲイン)で上回った。
論文 参考訳(メタデータ) (2023-12-28T18:58:01Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - Locate before Answering: Answer Guided Question Localization for Video
Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-05T08:19:16Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。