論文の概要: Language Repository for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2403.14622v1
- Date: Thu, 21 Mar 2024 17:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 13:00:31.959351
- Title: Language Repository for Long Video Understanding
- Title(参考訳): 長いビデオ理解のための言語リポジトリ
- Authors: Kumara Kahatapitiya, Kanchana Ranasinghe, Jongwoo Park, Michael S. Ryoo,
- Abstract要約: 本稿では,マルチモーダルビジョン LLM のための言語リポジトリ (LangRepo) を提案する。
我々のリポジトリは、簡潔で構造化された情報を解釈可能な(オールテクスチュアルな)表現として保持しています。
- 参考スコア(独自算出の注目度): 41.17102343915504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language has become a prominent modality in computer vision with the rise of multi-modal LLMs. Despite supporting long context-lengths, their effectiveness in handling long-term information gradually declines with input length. This becomes critical, especially in applications such as long-form video understanding. In this paper, we introduce a Language Repository (LangRepo) for LLMs, that maintains concise and structured information as an interpretable (i.e., all-textual) representation. Our repository is updated iteratively based on multi-scale video chunks. We introduce write and read operations that focus on pruning redundancies in text, and extracting information at various temporal scales. The proposed framework is evaluated on zero-shot visual question-answering benchmarks including EgoSchema, NExT-QA, IntentQA and NExT-GQA, showing state-of-the-art performance at its scale. Our code is available at https://github.com/kkahatapitiya/LangRepo.
- Abstract(参考訳): 言語はマルチモーダルLLMの台頭とともに、コンピュータビジョンにおいて顕著なモダリティとなった。
長い文脈長をサポートするにもかかわらず、長期情報を扱う効果は、入力長とともに徐々に減少していく。
これは特に長大なビデオ理解のような応用において重要なものとなる。
本稿では,LLMのためのLang Repository(LangRepo)を提案する。
本リポジトリは,マルチスケールビデオチャンクに基づいて反復的に更新される。
テキスト中の冗長性を抽出し,様々な時間スケールで情報を抽出する書き込み・読み出し操作を導入する。
提案手法は,EgoSchema, NExT-QA, IntentQA, NExT-GQAなどのゼロショット視覚的質問応答ベンチマークを用いて評価し, その規模での現状を示す。
私たちのコードはhttps://github.com/kkahatapitiya/LangRepo.comで公開されています。
関連論文リスト
- LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMは、長いビデオ理解のための強力なビデオLLMである。
長編ビデオを短期セグメントに分解し、階層的トークンモジュールを介して各ローカルセグメントのローカル特徴を符号化する。
グローバルなセマンティクスを各ローカル機能に統合し、コンテキスト理解を強化する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - LITA: Language Instructed Temporal-Localization Assistant [71.68815100776278]
ビデオ長に対してタイムスタンプをエンコードするタイムトークンを導入し,ビデオ中のタイムスタンプをよりよく表現する。
また、アーキテクチャにSlowFastトークンを導入し、微細な時間分解能で時間情報をキャプチャする。
時間的ローカライゼーションに重点を置くことで,既存のビデオLLMに比べて映像ベースのテキスト生成が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-03-27T22:50:48Z) - A Simple LLM Framework for Long-Range Video Question-Answering [66.68887077133355]
長距離ビデオ質問応答(LVQA)のための言語ベースのフレームワークであるLLoViを提案する。
我々のアプローチでは、フレーム/クリップレベルの視覚キャプタと大言語モデル(GPT-3.5, GPT-4)を併用する。
提案手法は50.3%の精度を達成し,従来のベストパフォーマンスアプローチを18.1%(絶対ゲイン)で上回った。
論文 参考訳(メタデータ) (2023-12-28T18:58:01Z) - Retrieval-based Video Language Model for Efficient Long Video Question
Answering [39.474247695753725]
本稿では,検索型ビデオ言語モデル(R-VLM)を提案する。
具体的には、質問(クエリ)と長いビデオから、我々のモデルは最も関連性の高い$K$のビデオチャンクを特定し、選択する。
実験の結果,長編動画の編集におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-08T09:48:36Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context
Understanding [59.623007535233]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。