Fugu-MT 論文翻訳(概要): ViLCo-Bench: VIdeo Language COntinual learning Benchmark

論文の概要: ViLCo-Bench: VIdeo Language COntinual learning Benchmark

arxiv url: http://arxiv.org/abs/2406.13123v2
Date: Fri, 18 Oct 2024 05:20:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.856967
Title: ViLCo-Bench: VIdeo Language COntinual learning Benchmark
Title（参考訳）: ViLCo-Bench: VIdeo Language Continual Learning Benchmark
Authors: Tianqi Tang, Shohreh Deldari, Hao Xue, Celso De Melo, Flora D. Salim,
Abstract要約: ビデオテキストタスクの連続学習モデルを評価するために設計されたViLCo-Benchを提案する。データセットは10分間のビデオと、公開されているデータセットから収集された対応する言語クエリで構成されている。本稿では,自己教師付き学習を取り入れ,長期記憶効果と短期記憶効果を模倣する新しい記憶効率フレームワークを提案する。
参考スコア（独自算出の注目度）: 8.660555226687098
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video language continual learning involves continuously adapting to information from video and text inputs, enhancing a model's ability to handle new tasks while retaining prior knowledge. This field is a relatively under-explored area, and establishing appropriate datasets is crucial for facilitating communication and research in this field. In this study, we present the first dedicated benchmark, ViLCo-Bench, designed to evaluate continual learning models across a range of video-text tasks. The dataset comprises ten-minute-long videos and corresponding language queries collected from publicly available datasets. Additionally, we introduce a novel memory-efficient framework that incorporates self-supervised learning and mimics long-term and short-term memory effects. This framework addresses challenges including memory complexity from long video clips, natural language complexity from open queries, and text-video misalignment. We posit that ViLCo-Bench, with greater complexity compared to existing continual learning benchmarks, would serve as a critical tool for exploring the video-language domain, extending beyond conventional class-incremental tasks, and addressing complex and limited annotation issues. The curated data, evaluations, and our novel method are available at https://github.com/cruiseresearchgroup/ViLCo.
Abstract（参考訳）: ビデオ言語連続学習は、ビデオやテキスト入力からの情報に継続的に適応し、事前の知識を維持しながら新しいタスクを処理する能力を高める。この領域は、比較的未調査の領域であり、適切なデータセットを確立することが、この分野におけるコミュニケーションと研究の促進に不可欠である。本研究では,ビデオテキストタスクにおける連続学習モデルの評価を目的とした,最初の専用ベンチマークViLCo-Benchを提案する。データセットは10分間のビデオと、公開されているデータセットから収集された対応する言語クエリで構成されている。さらに、自己教師付き学習を取り入れ、長期記憶効果と短期記憶効果を模倣する新しい記憶効率フレームワークを提案する。このフレームワークは、長いビデオクリップからのメモリの複雑さ、オープンクエリからの自然言語の複雑さ、テキストとビデオのミスアライメントといった課題に対処する。 ViLCo-Benchは、既存の継続学習ベンチマークよりも複雑であり、ビデオ言語領域を探索し、従来のクラス増分タスクを超えて、複雑で限定的なアノテーション問題に対処するための重要なツールとなると仮定する。キュレートされたデータ、評価、新しい手法はhttps://github.com/cruiseresearchgroup/ViLCoで公開されている。

関連論文リスト

AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding [73.60257070465377]
AdaVideoRAGは、軽量なインテント分類器を使用して、クエリ複雑性に基づいた検索に適応する新しいフレームワークである。我々のフレームワークは、Omni-Knowledge Indexingモジュールを使用して、テキスト(キャプション、ASR、OCR)、視覚的特徴、セマンティックグラフから階層データベースを構築する。実験では、既存のMLLMにシームレスに統合することで、長時間ビデオ理解のための効率と精度の向上が示されている。
論文参考訳（メタデータ） (2025-06-16T15:18:15Z)
TextVidBench: A Benchmark for Long Video Scene Text Understanding [60.94150574231576]
TextVidBenchは、長ビデオテキスト質問応答用に設計された最初のベンチマークである(>3分)。 TextVidBenchは3つの重要な貢献をしている: 9つのカテゴリ(ニュース、スポーツ、ゲームなど)を平均2306秒で拡大し、より現実的な長ビデオ理解を可能にする。 i)IT-ロープ機構と時間的プロンプトエンジニアリングを導入し、時間的知覚を高めること、(ii)非一様位置符号化を採用して長いビデオシーケンスをよりよく扱うこと、(iii)軽量な微調整を施すことにより、大規模モデルを改善するための効率的なパラダイムを提案する。
論文参考訳（メタデータ） (2025-06-05T12:54:56Z)
ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
そこで我々は,新しいビデオセグメンテーションタスクであるビデオ推論セグメンテーションを提案する。このタスクは、複雑な入力テキストクエリが与えられたセグメンテーションマスクのトラックレットを出力するように設計されている。 ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
論文参考訳（メタデータ） (2024-07-18T17:59:17Z)
CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文参考訳（メタデータ） (2024-05-14T17:59:02Z)
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。 InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文参考訳（メタデータ） (2023-07-13T17:58:32Z)
Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文参考訳（メタデータ） (2023-03-29T02:33:54Z)
Deep Learning for Video-Text Retrieval: a Review [13.341694455581363]
Video-Text Retrieval (VTR) は、ある文のセマンティクスに関連する最も関連性の高いビデオを探すことを目的としている。本稿では,VTRに関する100以上の研究論文をレビューし,要約する。
論文参考訳（メタデータ） (2023-02-24T10:14:35Z)
Language-free Training for Zero-shot Video Grounding [50.701372436100684]
ビデオグラウンディングは、テキストと動画を同時に理解することで、時間間隔をローカライズすることを目的としている。最も難しい問題のひとつは、非常に時間とコストのかかるアノテーションの収集です。ゼロショット設定におけるビデオグラウンドティングのための,シンプルかつ斬新なトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-24T06:55:29Z)
Watch and Learn: Mapping Language and Noisy Real-world Videos with Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文参考訳（メタデータ） (2020-11-19T03:43:56Z)
VLEngagement: A Dataset of Scientific Video Lectures for Evaluating Population-based Engagement [23.078055803229912]
ビデオ講義は、現在のデジタル時代の大衆に知識を与える主要なモダリティの1つとなっている。科学ビデオ講義における学習者の関与を理解することを目的としたデータと研究は依然として重要なニーズである。本稿では,VLEngagementについて紹介する。VLEngagementは,公開科学ビデオ講義から抽出したコンテンツベースおよびビデオ特有の特徴からなる,新しいデータセットである。
論文参考訳（メタデータ） (2020-11-02T14:20:19Z)
DORi: Discovering Object Relationship for Moment Localization of a Natural-Language Query in Video [98.54696229182335]
本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
論文参考訳（メタデータ） (2020-10-13T09:50:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。