論文の概要: Video In-context Learning
- arxiv url: http://arxiv.org/abs/2407.07356v1
- Date: Wed, 10 Jul 2024 04:27:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 17:51:32.160584
- Title: Video In-context Learning
- Title(参考訳): ビデオインコンテキスト学習
- Authors: Wentao Zhang, Junliang Guo, Tianyu He, Li Zhao, Linli Xu, Jiang Bian,
- Abstract要約: 本稿では,既存のビデオクリップからモデルが始まり,様々な将来的なシーケンスを生成するビデオインコンテキスト学習について検討する。
これを実現するために、タスクを明確に定義し、ビデオデータセット上で自動回帰変換器を訓練する。
客観的尺度と主観的尺度の両方を含む様々な評価指標を設計し、生成結果の視覚的品質と意味的精度を実証する。
- 参考スコア(独自算出の注目度): 46.40277880351059
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In-context learning for vision data has been underexplored compared with that in natural language. Previous works studied image in-context learning, urging models to generate a single image guided by demonstrations. In this paper, we propose and study video in-context learning, where the model starts from an existing video clip and generates diverse potential future sequences, each semantically guided by the prompted video demonstrations. To achieve this, we provide a clear definition of the task, and train an autoregressive Transformer on video datasets. We thoroughly analyze the effect of different datasets and represent frames as discrete tokens, and then model them by next token predictions. We design various evaluation metrics, including both objective and subjective measures, to demonstrate the visual quality and semantic accuracy of generation results. Our model follows the scaling law and generates high-quality video clips that accurately align with the semantic guidance provided by in-context examples.
- Abstract(参考訳): 視覚データに対する文脈内学習は、自然言語と比較して過小評価されている。
以前の研究は、画像のコンテキスト内学習を研究し、モデルにデモによってガイドされた単一の画像を生成するように促した。
そこで本研究では,既存のビデオクリップからモデルが始まり,多種多様な将来的なシーケンスを生成できるビデオインコンテキスト学習を提案する。
これを実現するために、タスクを明確に定義し、ビデオデータセット上で自動回帰変換器を訓練する。
我々は、異なるデータセットの効果を徹底的に分析し、フレームを離散トークンとして表現し、次にトークン予測によってそれらをモデル化する。
客観的尺度と主観的尺度の両方を含む様々な評価指標を設計し、生成結果の視覚的品質と意味的精度を実証する。
本モデルでは,テキスト内サンプルから提供される意味指導と正確に一致した高品質なビデオクリップを生成する。
関連論文リスト
- Meta-optimized Angular Margin Contrastive Framework for Video-Language Representation Learning [34.259833094575285]
以前のデータにおけるビデオテキストペアは通常、完全に一致しないため、クロスモーダルなセマンティクスを正確に反映しないビデオ言語表現につながる可能性がある。
完全類似性を達成するために, モーダル表現を正則化するために, 狭義の角辺を持つ対照的な対象を提案する。
論文 参考訳(メタデータ) (2024-07-04T09:52:17Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Video SemNet: Memory-Augmented Video Semantic Network [14.64546899992196]
本稿では,低レベルデータ表現と視覚媒体の意味的側面のギャップを埋めることで,映画の物語要素を捉える機械学習手法を提案する。
本稿では、意味記述子をエンコードし、ビデオの埋め込みを学ぶために、ビデオセマンティックネットワーク(Video SemNet)というメモリ拡張ビデオセマンティックネットワークを提案する。
重み付きF-1スコアは0.72, IMDB評価は0.63である。
論文 参考訳(メタデータ) (2020-11-22T01:36:37Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。