Fugu-MT 論文翻訳(概要): Language Repository for Long Video Understanding

論文の概要: Language Repository for Long Video Understanding

arxiv url: http://arxiv.org/abs/2403.14622v1
Date: Thu, 21 Mar 2024 17:59:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-22 13:00:31.959351
Title: Language Repository for Long Video Understanding
Title（参考訳）: 長いビデオ理解のための言語リポジトリ
Authors: Kumara Kahatapitiya, Kanchana Ranasinghe, Jongwoo Park, Michael S. Ryoo,
Abstract要約: 本稿では,マルチモーダルビジョン LLM のための言語リポジトリ (LangRepo) を提案する。我々のリポジトリは、簡潔で構造化された情報を解釈可能な(オールテクスチュアルな)表現として保持しています。
参考スコア（独自算出の注目度）: 41.17102343915504
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language has become a prominent modality in computer vision with the rise of multi-modal LLMs. Despite supporting long context-lengths, their effectiveness in handling long-term information gradually declines with input length. This becomes critical, especially in applications such as long-form video understanding. In this paper, we introduce a Language Repository (LangRepo) for LLMs, that maintains concise and structured information as an interpretable (i.e., all-textual) representation. Our repository is updated iteratively based on multi-scale video chunks. We introduce write and read operations that focus on pruning redundancies in text, and extracting information at various temporal scales. The proposed framework is evaluated on zero-shot visual question-answering benchmarks including EgoSchema, NExT-QA, IntentQA and NExT-GQA, showing state-of-the-art performance at its scale. Our code is available at https://github.com/kkahatapitiya/LangRepo.
Abstract（参考訳）: 言語はマルチモーダルLLMの台頭とともに、コンピュータビジョンにおいて顕著なモダリティとなった。長い文脈長をサポートするにもかかわらず、長期情報を扱う効果は、入力長とともに徐々に減少していく。これは特に長大なビデオ理解のような応用において重要なものとなる。本稿では,LLMのためのLang Repository(LangRepo)を提案する。本リポジトリは,マルチスケールビデオチャンクに基づいて反復的に更新される。テキスト中の冗長性を抽出し,様々な時間スケールで情報を抽出する書き込み・読み出し操作を導入する。提案手法は,EgoSchema, NExT-QA, IntentQA, NExT-GQAなどのゼロショット視覚的質問応答ベンチマークを用いて評価し, その規模での現状を示す。私たちのコードはhttps://github.com/kkahatapitiya/LangRepo.comで公開されています。

関連論文リスト

Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs [59.854331104466254]
ビデオチャプティングの課題、すなわち、長いビデオタイムラインを意味単位に分割し、対応するチャプティングタイトルを生成する。本稿では,音声書き起こし内容に基づく軽量な音声誘導フレーム選択手法を提案し,その利点を実験的に示す。以上の結果から,最新のVidChapters-7Mベンチマークでは,技術の現状よりも大幅な改善が見られた。
論文参考訳（メタデータ） (2025-03-31T17:41:29Z)
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。 DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文参考訳（メタデータ） (2024-10-22T21:21:37Z)
Visual Context Window Extension: A New Perspective for Long Video Understanding [45.134271969594614]
我々は、コンテキストウィンドウの観点から、長いビデオ理解の課題に取り組む。視覚的コンテキストウィンドウを拡張し,LMMを長時間の映像理解タスクに適用することを提案する。ビデオフレーム数の増加に伴い,本手法は連続的に性能を向上する。
論文参考訳（メタデータ） (2024-09-30T07:25:16Z)
The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval [36.516226519328015]
ビデオ言語タスクは空間的・時間的理解を必要とし、かなりの計算を必要とする。本研究は,画像テキスト事前学習MLLMをモーメント検索に活用することの驚くべき有効性を示す。我々は、Charades-STA、QVHighlights、ActivityNet Captionsといった広く使われているベンチマーク上で、新しい最先端のモーメント検索を実現する。
論文参考訳（メタデータ） (2024-06-26T06:59:09Z)
Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。本稿では,言語モデルの観点からこの問題にアプローチする。言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文参考訳（メタデータ） (2024-06-24T17:58:06Z)
Too Many Frames, Not All Useful: Efficient Strategies for Long-Form Video QA [40.21221568678641]
広い時間間隔にまたがるロングフォームビデオは、非常に冗長な情報である。正しい応答を生成するために必要な全ての情報は、しばしばフレームの小さなサブセットに含まれる。近年の文献では、LVQAベンチマークにおける大きな言語モデルの使用を探求し、例外的な性能を達成している。
論文参考訳（メタデータ） (2024-06-13T17:59:16Z)
LVBench: An Extreme Long Video Understanding Benchmark [38.839913137854104]
LVBenchは長いビデオの理解に特化して設計されたベンチマークである。我々のデータセットは、公開されているビデオからなり、長いビデオの理解と情報抽出を目的とした様々なタスクを包含する。
論文参考訳（メタデータ） (2024-06-12T09:36:52Z)
LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文参考訳（メタデータ） (2024-04-04T11:33:29Z)
LITA: Language Instructed Temporal-Localization Assistant [71.68815100776278]
ビデオ長に対してタイムスタンプをエンコードするタイムトークンを導入し,ビデオ中のタイムスタンプをよりよく表現する。また、アーキテクチャにSlowFastトークンを導入し、微細な時間分解能で時間情報をキャプチャする。時間的ローカライゼーションに重点を置くことで,既存のビデオLLMに比べて映像ベースのテキスト生成が大幅に向上することを示す。
論文参考訳（メタデータ） (2024-03-27T22:50:48Z)
LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文参考訳（メタデータ） (2023-08-28T11:53:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。