論文の概要: COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark
- arxiv url: http://arxiv.org/abs/2408.02272v1
- Date: Mon, 5 Aug 2024 07:00:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 14:16:18.704224
- Title: COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark
- Title(参考訳): COM Kitchens:ビジョンランゲージベンチマークとしての未編集オーバーヘッドビュービデオデータセット
- Authors: Koki Maeda, Tosho Hirasawa, Atsushi Hashimoto, Jun Harashima, Leszek Rybicki, Yusuke Fukasawa, Yoshitaka Ushiku,
- Abstract要約: スマートフォンで撮影した未編集のオーバヘッドビュービデオからなる新しいデータセットであるCOM Kitchensを提案する。
未編集のオーバヘッドビュービデオ(DVC-OV)上の新しいビデオ検索タスクOnRRと新しいビデオキャプションドメインDense Video Captioningを提案する。
本実験は,現在のWebビデオベースSOTA方式のタスク処理能力と限界を検証した。
- 参考スコア(独自算出の注目度): 13.623338371949337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Procedural video understanding is gaining attention in the vision and language community. Deep learning-based video analysis requires extensive data. Consequently, existing works often use web videos as training resources, making it challenging to query instructional contents from raw video observations. To address this issue, we propose a new dataset, COM Kitchens. The dataset consists of unedited overhead-view videos captured by smartphones, in which participants performed food preparation based on given recipes. Fixed-viewpoint video datasets often lack environmental diversity due to high camera setup costs. We used modern wide-angle smartphone lenses to cover cooking counters from sink to cooktop in an overhead view, capturing activity without in-person assistance. With this setup, we collected a diverse dataset by distributing smartphones to participants. With this dataset, we propose the novel video-to-text retrieval task Online Recipe Retrieval (OnRR) and new video captioning domain Dense Video Captioning on unedited Overhead-View videos (DVC-OV). Our experiments verified the capabilities and limitations of current web-video-based SOTA methods in handling these tasks.
- Abstract(参考訳): 手続き的ビデオ理解は、ビジョンと言語コミュニティで注目を集めている。
ディープラーニングに基づくビデオ分析には、広範なデータが必要である。
その結果、既存の作品ではWeb動画をトレーニングリソースとして利用することが多く、生のビデオ観察から教示内容のクエリが困難になる。
この問題に対処するため、新しいデータセットであるCOM Kitchensを提案する。
データセットは、スマートフォンが撮影した未編集のオーバーヘッドビュービデオで構成され、参加者は所定のレシピに基づいて食事の準備を行う。
固定視点ビデオデータセットは、高いカメラ設定コストのために環境多様性を欠いていることが多い。
われわれは、現代の広角スマートフォンのレンズを使って、頭上から見たシンクからコックトップまでの調理カウンタをカバーし、対人支援なしでアクティビティを捉えた。
このセットアップにより、スマートフォンを参加者に配布することで、多様なデータセットを収集しました。
本データセットでは,未編集のオーバーヘッド・ビュー・ビデオ(DVC-OV)上で,オンラインレシピ検索(OnRR)と新しいビデオキャプション領域Dense Video Captioningを提案する。
本実験では,現在のWebビデオベースSOTA方式のタスク処理能力と限界について検証した。
関連論文リスト
- ViLCo-Bench: VIdeo Language COntinual learning Benchmark [8.660555226687098]
ビデオテキストタスクの連続学習モデルを評価するために設計されたViLCo-Benchを提案する。
データセットは10分間のビデオと、公開されているデータセットから収集された対応する言語クエリで構成されている。
本稿では,自己教師付き学習を取り入れ,長期記憶効果と短期記憶効果を模倣する新しい記憶効率フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-19T00:38:19Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。
本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。
我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文 参考訳(メタデータ) (2024-03-25T17:59:03Z) - Detours for Navigating Instructional Videos [58.1645668396789]
We propose VidDetours, a video-lang approach that learn to retrieve the target temporal segments from a large repository of how-to's。
本稿では,ビデオ検索と質問応答の最良の方法に比べて,モデルが大幅に改善し,リコール率が35%を超えることを示す。
論文 参考訳(メタデータ) (2024-01-03T16:38:56Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z) - A Comprehensive Review on Recent Methods and Challenges of Video
Description [11.69687792533269]
ビデオ記述には、ビデオ内のアクション、イベント、オブジェクトの自然言語記述の生成が含まれる。
視覚障害者のための言語と視覚のギャップを埋めることで、映像記述の様々な応用がある。
過去10年間に、ビデオ記述、評価メトリクス、データセットのアプローチ/方法に関して、この分野でいくつかの研究が行われてきた。
論文 参考訳(メタデータ) (2020-11-30T13:08:45Z) - VLEngagement: A Dataset of Scientific Video Lectures for Evaluating
Population-based Engagement [23.078055803229912]
ビデオ講義は、現在のデジタル時代の大衆に知識を与える主要なモダリティの1つとなっている。
科学ビデオ講義における学習者の関与を理解することを目的としたデータと研究は依然として重要なニーズである。
本稿では,VLEngagementについて紹介する。VLEngagementは,公開科学ビデオ講義から抽出したコンテンツベースおよびビデオ特有の特徴からなる,新しいデータセットである。
論文 参考訳(メタデータ) (2020-11-02T14:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。