論文の概要: Vista-LLaMA: Reliable Video Narrator via Equal Distance to Visual Tokens
- arxiv url: http://arxiv.org/abs/2312.08870v1
- Date: Tue, 12 Dec 2023 09:47:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 22:38:19.463914
- Title: Vista-LLaMA: Reliable Video Narrator via Equal Distance to Visual Tokens
- Title(参考訳): vista-llama: ビジュアルトークンと同等距離で信頼できるビデオナレーター
- Authors: Fan Ma, Xiaojie Jin, Heng Wang, Yuchen Xian, Jiashi Feng, Yi Yang
- Abstract要約: Vista-LLaMAは、すべての視覚トークンと任意の言語トークンとの一貫性のある距離を維持する新しいフレームワークである。
本稿では,現在の映像フレームを前フレームの助けを借りて,言語空間のトークンに投影する逐次視覚プロジェクタを提案する。
- 参考スコア(独自算出の注目度): 70.80127538938093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large video-language models have displayed promising
outcomes in video comprehension. Current approaches straightforwardly convert
video into language tokens and employ large language models for multi-modal
tasks. However, this method often leads to the generation of irrelevant
content, commonly known as "hallucination", as the length of the text increases
and the impact of the video diminishes. To address this problem, we propose
Vista-LLaMA, a novel framework that maintains the consistent distance between
all visual tokens and any language tokens, irrespective of the generated text
length. Vista-LLaMA omits relative position encoding when determining attention
weights between visual and text tokens, retaining the position encoding for
text and text tokens. This amplifies the effect of visual tokens on text
generation, especially when the relative distance is longer between visual and
text tokens. The proposed attention mechanism significantly reduces the chance
of producing irrelevant text related to the video content. Furthermore, we
present a sequential visual projector that projects the current video frame
into tokens of language space with the assistance of the previous frame. This
approach not only captures the temporal relationship within the video, but also
allows less visual tokens to encompass the entire video. Our approach
significantly outperforms various previous methods (e.g., Video-ChatGPT,
MovieChat) on four challenging open-ended video question answering benchmarks.
We reach an accuracy of 60.7 on the zero-shot NExT-QA and 60.5 on the zero-shot
MSRVTT-QA, setting a new state-of-the-art performance. This project is
available at https://jinxxian.github.io/Vista-LLaMA.
- Abstract(参考訳): 近年の大規模ビデオ言語モデルの進歩は,映像理解における有望な成果を示している。
現在のアプローチでは、ビデオを簡単に言語トークンに変換し、マルチモーダルタスクに大規模言語モデルを採用する。
しかし、この方法はしばしば、テキストの長さが増加し、ビデオの影響が減少するにつれて、一般に「幻覚」として知られる無関係なコンテンツを生成する。
この問題を解決するために、生成したテキスト長に関係なく、すべての視覚トークンと任意の言語トークンとの一貫性のある距離を維持する新しいフレームワークVista-LLaMAを提案する。
vista-llamaは、視覚トークンとテキストトークンの間の注意重みを決定する際に相対的な位置エンコーディングを省略し、テキストとテキストトークンの位置エンコーディングを保持する。
これは、特に視覚トークンとテキストトークンの相対距離が長い場合に、視覚トークンがテキスト生成に与える影響を増幅する。
提案手法は,ビデオコンテンツに関連した無関係なテキストを生成する可能性を著しく低減する。
さらに,従来のフレームの助けを借りて,現在の映像フレームを言語空間のトークンに投影する逐次視覚プロジェクタを提案する。
このアプローチは、ビデオ内の時間的関係をキャプチャするだけでなく、ビデオ全体を包含する視覚トークンを少なくする。
提案手法は,従来の様々な手法(ビデオチャットgpt,moviechatなど)を4つの難解なオープンエンドビデオ質問応答ベンチマークで大幅に上回っている。
ゼロショットNExT-QAでは60.7、ゼロショットMSRVTT-QAでは60.5に達し、新しい最先端性能が設定される。
このプロジェクトはhttps://jinxxian.github.io/Vista-LLaMA.comで入手できる。
関連論文リスト
- ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
そこで我々は,新しいビデオセグメンテーションタスクであるビデオ推論セグメンテーションを提案する。
このタスクは、複雑な入力テキストクエリが与えられたセグメンテーションマスクのトラックレットを出力するように設計されている。
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models [66.40252169137447]
本稿では,視覚言語モデル(VLM)において,LLaMA-VIDと呼ばれるビデオおよび画像理解のためのトークン生成に挑戦する新しい手法を提案する。
LLaMA-VIDは、各フレームを2つの異なるトークン、すなわちコンテキストトークンとコンテントトークンで表現することでこの問題に対処する。
このデュアルトークン戦略は、重要な情報を保持しながら、長いビデオのオーバーロードを大幅に削減する。
論文 参考訳(メタデータ) (2023-11-28T18:53:43Z) - Phenaki: Variable Length Video Generation From Open Domain Textual
Description [21.610541668826006]
フェナキ(Phenaki)は、一連のテキストプロンプトを与えられたリアルなビデオ合成が可能なモデルである。
ビデオ表現を学習する新しいモデルは、ビデオを離散トークンの小さな表現に圧縮する。
私たちの知る限りでは、論文が時間変化プロンプトからビデオを生成するのは今回が初めてです。
論文 参考訳(メタデータ) (2022-10-05T17:18:28Z) - TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。
TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。
その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T15:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。