論文の概要: Vista-LLaMA: Reducing Hallucination in Video Language Models via Equal Distance to Visual Tokens
- arxiv url: http://arxiv.org/abs/2312.08870v2
- Date: Mon, 03 Mar 2025 17:58:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:10:24.615453
- Title: Vista-LLaMA: Reducing Hallucination in Video Language Models via Equal Distance to Visual Tokens
- Title(参考訳): Vista-LLaMA: 視覚トークンの等距離によるビデオ言語モデルにおける幻覚の低減
- Authors: Fan Ma, Xiaojie Jin, Heng Wang, Yuchen Xian, Jiashi Feng, Yi Yang,
- Abstract要約: Vista-LLaMAは、すべての視覚トークンと任意の言語トークンとの一貫性のある距離を維持する新しいフレームワークである。
本稿では,現在の映像フレームを前フレームの助けを借りて,言語空間のトークンに投影する逐次視覚プロジェクタを提案する。
- 参考スコア(独自算出の注目度): 66.81787301096415
- License:
- Abstract: Recent advances in large video-language models have displayed promising outcomes in video comprehension. Current approaches straightforwardly convert video into language tokens and employ large language models for multi-modal tasks. However, this method often leads to the generation of irrelevant content, commonly known as "hallucination", as the length of the text increases and the impact of the video diminishes. To address this problem, we propose Vista-LLaMA, a novel framework that maintains the consistent distance between all visual tokens and any language tokens, irrespective of the generated text length. Vista-LLaMA omits relative position encoding when determining attention weights between visual and text tokens, retaining the position encoding for text and text tokens. This amplifies the effect of visual tokens on text generation, especially when the relative distance is longer between visual and text tokens. The proposed attention mechanism significantly reduces the chance of producing irrelevant text related to the video content. Furthermore, we present a sequential visual projector that projects the current video frame into tokens of language space with the assistance of the previous frame. This approach not only captures the temporal relationship within the video, but also allows less visual tokens to encompass the entire video. Our approach significantly outperforms various previous methods (e.g., Video-ChatGPT, MovieChat) on four challenging open-ended video question answering benchmarks. We reach an accuracy of 60.7 on the zero-shot NExT-QA and 60.5 on the zero-shot MSRVTT-QA, setting a new state-of-the-art performance. This project is available at https://jinxxian.github.io/Vista-LLaMA.
- Abstract(参考訳): 近年の大規模ビデオ言語モデルの進歩は,映像理解における有望な成果を示している。
現在のアプローチでは、ビデオを簡単に言語トークンに変換し、マルチモーダルタスクに大規模言語モデルを採用する。
しかし、この方法では、テキストの長さが増加し、ビデオの影響が減少するにつれて、しばしば「幻覚」と呼ばれる無関係なコンテンツが生成される。
この問題を解決するために、生成したテキスト長に関係なく、すべての視覚トークンと任意の言語トークンとの一貫性のある距離を維持する新しいフレームワークであるVista-LLaMAを提案する。
Vista-LLaMAは、視覚トークンとテキストトークンの間の注意重みを決定する際に相対的な位置エンコーディングを省略し、テキストトークンとテキストトークンの位置エンコーディングを保持する。
これは、特に視覚トークンとテキストトークンの相対距離が長い場合に、視覚トークンがテキスト生成に与える影響を増幅する。
提案したアテンション機構は、ビデオコンテンツに関連する無関係なテキストを生成する可能性を著しく低減する。
さらに,従来のフレームの助けを借りて,現在の映像フレームを言語空間のトークンに投影する逐次視覚プロジェクタを提案する。
このアプローチは、ビデオ内の時間的関係をキャプチャするだけでなく、ビデオ全体を包含する視覚的トークンも少なくする。
提案手法は, 従来手法(例えば, Video-ChatGPT, MovieChat)に比べて, 4つの挑戦的ビデオ質問応答ベンチマークにおいて有意に優れていた。
ゼロショットNExT-QAでは60.7、ゼロショットMSRVTT-QAでは60.5に達し、新しい最先端性能が設定される。
このプロジェクトはhttps://jinxxian.github.io/Vista-LLaMA.comで入手できる。
関連論文リスト
- ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
そこで我々は,新しいビデオセグメンテーションタスクであるビデオ推論セグメンテーションを提案する。
このタスクは、複雑な入力テキストクエリが与えられたセグメンテーションマスクのトラックレットを出力するように設計されている。
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models [66.40252169137447]
本稿では,視覚言語モデル(VLM)において,LLaMA-VIDと呼ばれるビデオおよび画像理解のためのトークン生成に挑戦する新しい手法を提案する。
LLaMA-VIDは、各フレームを2つの異なるトークン、すなわちコンテキストトークンとコンテントトークンで表現することでこの問題に対処する。
このデュアルトークン戦略は、重要な情報を保持しながら、長いビデオのオーバーロードを大幅に削減する。
論文 参考訳(メタデータ) (2023-11-28T18:53:43Z) - Phenaki: Variable Length Video Generation From Open Domain Textual
Description [21.610541668826006]
フェナキ(Phenaki)は、一連のテキストプロンプトを与えられたリアルなビデオ合成が可能なモデルである。
ビデオ表現を学習する新しいモデルは、ビデオを離散トークンの小さな表現に圧縮する。
私たちの知る限りでは、論文が時間変化プロンプトからビデオを生成するのは今回が初めてです。
論文 参考訳(メタデータ) (2022-10-05T17:18:28Z) - TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。
TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。
その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T15:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。