Fugu-MT 論文翻訳(概要): Vista-LLaMA: Reliable Video Narrator via Equal Distance to Visual Tokens

論文の概要: Vista-LLaMA: Reliable Video Narrator via Equal Distance to Visual Tokens

arxiv url: http://arxiv.org/abs/2312.08870v1
Date: Tue, 12 Dec 2023 09:47:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-15 22:38:19.463914
Title: Vista-LLaMA: Reliable Video Narrator via Equal Distance to Visual Tokens
Title（参考訳）: vista-llama: ビジュアルトークンと同等距離で信頼できるビデオナレーター
Authors: Fan Ma, Xiaojie Jin, Heng Wang, Yuchen Xian, Jiashi Feng, Yi Yang
Abstract要約: Vista-LLaMAは、すべての視覚トークンと任意の言語トークンとの一貫性のある距離を維持する新しいフレームワークである。本稿では,現在の映像フレームを前フレームの助けを借りて,言語空間のトークンに投影する逐次視覚プロジェクタを提案する。
参考スコア（独自算出の注目度）: 70.80127538938093
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in large video-language models have displayed promising outcomes in video comprehension. Current approaches straightforwardly convert video into language tokens and employ large language models for multi-modal tasks. However, this method often leads to the generation of irrelevant content, commonly known as "hallucination", as the length of the text increases and the impact of the video diminishes. To address this problem, we propose Vista-LLaMA, a novel framework that maintains the consistent distance between all visual tokens and any language tokens, irrespective of the generated text length. Vista-LLaMA omits relative position encoding when determining attention weights between visual and text tokens, retaining the position encoding for text and text tokens. This amplifies the effect of visual tokens on text generation, especially when the relative distance is longer between visual and text tokens. The proposed attention mechanism significantly reduces the chance of producing irrelevant text related to the video content. Furthermore, we present a sequential visual projector that projects the current video frame into tokens of language space with the assistance of the previous frame. This approach not only captures the temporal relationship within the video, but also allows less visual tokens to encompass the entire video. Our approach significantly outperforms various previous methods (e.g., Video-ChatGPT, MovieChat) on four challenging open-ended video question answering benchmarks. We reach an accuracy of 60.7 on the zero-shot NExT-QA and 60.5 on the zero-shot MSRVTT-QA, setting a new state-of-the-art performance. This project is available at https://jinxxian.github.io/Vista-LLaMA.
Abstract（参考訳）: 近年の大規模ビデオ言語モデルの進歩は,映像理解における有望な成果を示している。現在のアプローチでは、ビデオを簡単に言語トークンに変換し、マルチモーダルタスクに大規模言語モデルを採用する。しかし、この方法はしばしば、テキストの長さが増加し、ビデオの影響が減少するにつれて、一般に「幻覚」として知られる無関係なコンテンツを生成する。この問題を解決するために、生成したテキスト長に関係なく、すべての視覚トークンと任意の言語トークンとの一貫性のある距離を維持する新しいフレームワークVista-LLaMAを提案する。 vista-llamaは、視覚トークンとテキストトークンの間の注意重みを決定する際に相対的な位置エンコーディングを省略し、テキストとテキストトークンの位置エンコーディングを保持する。これは、特に視覚トークンとテキストトークンの相対距離が長い場合に、視覚トークンがテキスト生成に与える影響を増幅する。提案手法は,ビデオコンテンツに関連した無関係なテキストを生成する可能性を著しく低減する。さらに,従来のフレームの助けを借りて,現在の映像フレームを言語空間のトークンに投影する逐次視覚プロジェクタを提案する。このアプローチは、ビデオ内の時間的関係をキャプチャするだけでなく、ビデオ全体を包含する視覚トークンを少なくする。提案手法は,従来の様々な手法(ビデオチャットgpt,moviechatなど)を4つの難解なオープンエンドビデオ質問応答ベンチマークで大幅に上回っている。ゼロショットNExT-QAでは60.7、ゼロショットMSRVTT-QAでは60.5に達し、新しい最先端性能が設定される。このプロジェクトはhttps://jinxxian.github.io/Vista-LLaMA.comで入手できる。

関連論文リスト

Seeing the Forest and the Trees: Query-Aware Tokenizer for Long-Video Multimodal Language Models [24.875526594002434]
長いビデオ理解シナリオのための視覚トークン選択モジュールであるQTSplusを提案する。 Qwen2.5-VLに統合され、ビジョンストリームを textbf89% まで圧縮し、長いビデオでは textbf28% でエンドツーエンドのレイテンシを低減する。以上の結果から,QTSplusはMLLMを現実世界の長ビデオシナリオに拡張するための,効果的で汎用的なメカニズムであることが示唆された。
論文参考訳（メタデータ） (2025-11-14T22:41:27Z)
Gather and Trace: Rethinking Video TextVQA from an Instance-oriented Perspective [11.379162727778361]
ビデオテキストベースの視覚的質問応答(Video TextVQA)は、ビデオに関連するテキストを明示的に推論することで、質問に答えることを目的としている。この分野でのほとんどの作業は、冗長なテキストエンティティと暗黙の関係モデリングに苦しむフレームレベルのフレームワークに従う。本稿では,ビデオテキストVQAタスクのためのGAT(Gather and Trace)と呼ばれる新しいモデルを提案する。
論文参考訳（メタデータ） (2025-08-06T08:26:36Z)
Multimodal Long Video Modeling Based on Temporal Dynamic Context [13.979661295432964]
時間的動的コンテキスト(TDC)と呼ばれるフレーム間の時間的関係を利用した動的長ビデオ符号化手法を提案する。ビデオはフレーム間の類似性に基づいて意味的に一貫したシーンに分割し、各フレームを視覚音響エンコーダを使用してトークンにエンコードする。極端に長いビデオを扱うために,複数のビデオセグメントから回答を段階的に抽出する学習自由連鎖戦略を提案する。
論文参考訳（メタデータ） (2025-04-14T17:34:06Z)
HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文参考訳（メタデータ） (2025-03-14T15:36:39Z)
ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
そこで我々は,新しいビデオセグメンテーションタスクであるビデオ推論セグメンテーションを提案する。このタスクは、複雑な入力テキストクエリが与えられたセグメンテーションマスクのトラックレットを出力するように設計されている。 ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
論文参考訳（メタデータ） (2024-07-18T17:59:17Z)
Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。本稿では,言語モデルの観点からこの問題にアプローチする。言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文参考訳（メタデータ） (2024-06-24T17:58:06Z)
OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文参考訳（メタデータ） (2024-03-26T17:59:24Z)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models [66.40252169137447]
本稿では,視覚言語モデル(VLM)において,LLaMA-VIDと呼ばれるビデオおよび画像理解のためのトークン生成に挑戦する新しい手法を提案する。 LLaMA-VIDは、各フレームを2つの異なるトークン、すなわちコンテキストトークンとコンテントトークンで表現することでこの問題に対処する。このデュアルトークン戦略は、重要な情報を保持しながら、長いビデオのオーバーロードを大幅に削減する。
論文参考訳（メタデータ） (2023-11-28T18:53:43Z)
Phenaki: Variable Length Video Generation From Open Domain Textual Description [21.610541668826006]
フェナキ(Phenaki)は、一連のテキストプロンプトを与えられたリアルなビデオ合成が可能なモデルである。ビデオ表現を学習する新しいモデルは、ビデオを離散トークンの小さな表現に圧縮する。私たちの知る限りでは、論文が時間変化プロンプトからビデオを生成するのは今回が初めてです。
論文参考訳（メタデータ） (2022-10-05T17:18:28Z)
TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。 TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文参考訳（メタデータ） (2022-09-28T15:08:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。