論文の概要: CoS: Chain-of-Shot Prompting for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2502.06428v1
- Date: Mon, 10 Feb 2025 13:03:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:31:40.217685
- Title: CoS: Chain-of-Shot Prompting for Long Video Understanding
- Title(参考訳): CoS:長めのビデオ理解のためのチェーン・オブ・ショット・プロンプト
- Authors: Jian Hu, Zixu Cheng, Chenyang Si, Wei Li, Shaogang Gong,
- Abstract要約: Chain-of-Shot prompting (CoS)は、ショット選択をテスト時の視覚的プロンプト最適化としてフレーム化することを目的としており、ショットとタスクのアライメントを最適化することで、ビデオセマンティックタスクに適応したショットを選択する。
CoS は,(1) 擬似時間的グラウンドを行うバイナリビデオ要約機構,(2) タスク関連ショットを識別するバイナリコーディングの発見,(2) タスク関連ショットと無関係な負ショットとをペア(整列)に展開するビデオ共推論モジュール,の2つの重要な部分を有している。
- 参考スコア(独自算出の注目度): 35.36760289077085
- License:
- Abstract: Multi-modal Large Language Models (MLLMs) struggle with long videos due to the need for excessive visual tokens. These tokens exceed massively the context length of MLLMs, resulting in filled by redundant task-irrelevant shots. How to select shots is an unsolved critical problem: sparse sampling risks missing key details, while exhaustive sampling overwhelms the model with irrelevant content, leading to video misunderstanding. To solve this problem, we propose Chain-of-Shot prompting (CoS). The key idea is to frame shot selection as test-time visual prompt optimisation, choosing shots adaptive to video understanding semantic task by optimising shots-task alignment. CoS has two key parts: (1) a binary video summary mechanism that performs pseudo temporal grounding, discovering a binary coding to identify task-relevant shots, and (2) a video co-reasoning module that deploys the binary coding to pair (learning to align) task-relevant positive shots with irrelevant negative shots. It embeds the optimised shot selections into the original video, facilitating a focus on relevant context to optimize long video understanding. Experiments across three baselines and five datasets demonstrate the effectiveness and adaptability of CoS. Code given in https://lwpyh.github.io/CoS.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、過度の視覚的トークンを必要とするため、長いビデオに苦しむ。
これらのトークンはMLLMのコンテキスト長を大幅に超え、冗長なタスク関連ショットで満たされる。
スパースサンプリングは重要な詳細を欠くリスクを減らし、徹底的なサンプリングは無関係なコンテンツでモデルを圧倒し、ビデオの誤解につながる。
この問題を解決するために、我々はChain-of-Shot prompting (CoS)を提案する。
キーとなるアイデアは、ショット選択をテストタイムの視覚的プロンプトの最適化としてフレーム化し、ショットとタスクのアライメントを最適化することで、ビデオ理解セマンティックタスクに適応するショットを選択することである。
CoS は,(1) 擬似時間的グラウンドを行うバイナリビデオ要約機構,(2) タスク関連ショットを識別するバイナリコーディングの発見,(2) タスク関連ショットと無関係な負ショットとをペア(整列)に展開するビデオ共推論モジュール,の2つの重要な部分を有している。
最適化されたショットの選択をオリジナルのビデオに埋め込んで、関連するコンテキストに焦点を合わせ、長いビデオ理解を最適化する。
3つのベースラインと5つのデータセットにわたる実験は、CoSの有効性と適応性を示している。
https://lwpyh.github.io/CoS.comで提供されるコード。
関連論文リスト
- VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering [11.244643114253773]
Video Question(ビデオQA)は、ビデオで観察される情報に基づいて、自然言語の質問に答えることを目的としている。
視覚的な入力として疑問クリティカルな瞬間に答えを推論するために,LMMを強制する,弱い教師付きフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-19T14:21:46Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - Fill-in-the-blank as a Challenging Video Understanding Evaluation
Framework [19.031957183047048]
28,000の動画と補足テストからなる新しいデータセットを導入する。
マルチモーダルモデルと強力な言語モデルの両方が、人間のパフォーマンスに大きなギャップがあることが示される。
論文 参考訳(メタデータ) (2021-04-09T04:00:10Z) - Few-Shot Action Recognition with Compromised Metric via Optimal
Transport [31.834843714684343]
少数の画像分類の広い研究にもかかわらず、少数のアクション認識はまだ成熟していません。
これらのアルゴリズムをアクション認識に適用する主な障害の1つは、ビデオの複雑な構造です。
これら2つのソリューションの利点を組み合わせるために、CMOT(Compromised Metric via Optimal Transport)を提案します。
論文 参考訳(メタデータ) (2021-04-08T12:42:05Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。