論文の概要: Video In-context Learning: Autoregressive Transformers are Zero-Shot Video Imitators
- arxiv url: http://arxiv.org/abs/2407.07356v2
- Date: Wed, 19 Mar 2025 10:22:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:20:21.077429
- Title: Video In-context Learning: Autoregressive Transformers are Zero-Shot Video Imitators
- Title(参考訳): ビデオインコンテキスト学習:自動回帰変換器はゼロショットビデオイミッタである
- Authors: Wentao Zhang, Junliang Guo, Tianyu He, Li Zhao, Linli Xu, Jiang Bian,
- Abstract要約: 環境と相互作用するモデルのための新しいインタフェースとして視覚信号を活用することを検討する。
デモビデオからセマンティクスを推測し,そのセマンティクスを未知のシナリオに模倣する,ゼロショット機能を実現していることがわかった。
その結果,本モデルでは,デモビデオが提供する意味指導と正確に一致した高品質なビデオクリップを生成できることがわかった。
- 参考スコア(独自算出の注目度): 46.40277880351059
- License:
- Abstract: People interact with the real-world largely dependent on visual signal, which are ubiquitous and illustrate detailed demonstrations. In this paper, we explore utilizing visual signals as a new interface for models to interact with the environment. Specifically, we choose videos as a representative visual signal. And by training autoregressive Transformers on video datasets in a self-supervised objective, we find that the model emerges a zero-shot capability to infer the semantics from a demonstration video, and imitate the semantics to an unseen scenario. This allows the models to perform unseen tasks by watching the demonstration video in an in-context manner, without further fine-tuning. To validate the imitation capacity, we design various evaluation metrics including both objective and subjective measures. The results show that our models can generate high-quality video clips that accurately align with the semantic guidance provided by the demonstration videos, and we also show that the imitation capacity follows the scaling law. Code and models have been open-sourced.
- Abstract(参考訳): 人々は視覚信号に大きく依存する現実世界と対話し、それはユビキタスであり、詳細なデモンストレーションを示す。
本稿では,環境と相互作用するモデルのための新しいインタフェースとして視覚信号を利用する方法について検討する。
具体的には、代表的な視覚信号としてビデオを選択する。
そして、自己教師対象のビデオデータセット上で自己回帰変換器をトレーニングすることにより、デモビデオからセマンティクスを推測し、セマンティクスを目に見えないシナリオに模倣するゼロショット能力が出現することがわかった。
これにより、モデルはさらに微調整することなく、デモビデオをコンテキスト内で見ることで、目に見えないタスクを実行できる。
模倣能力を検証するため,客観的尺度と主観的尺度の両方を含む様々な評価指標を設計する。
その結果,本モデルでは,実演ビデオが提供する意味指導と正確に一致した高品質な映像クリップを作成でき,模倣能力はスケーリング法に従っていることが示唆された。
コードとモデルはオープンソース化されている。
関連論文リスト
- From Image to Video: An Empirical Study of Diffusion Representations [35.46566116011867]
拡散モデルは生成モデルに革命をもたらし、画像合成やビデオ合成において前例のないリアリズムを可能にした。
この研究は、視覚的理解のための映像と画像の拡散目標の直接比較として初めて行われ、表現学習における時間情報の役割についての洞察を提供する。
論文 参考訳(メタデータ) (2025-02-10T19:53:46Z) - An Empirical Study of Autoregressive Pre-training from Videos [67.15356613065542]
ビデオをビジュアルトークンとして扱い、トランスフォーマーモデルをトレーニングして、将来的なトークンを自動回帰的に予測します。
われわれのモデルは、1兆以上の視覚トークンからなる多様なビデオと画像のデータセットで事前訓練されている。
以上の結果から, 自己回帰的事前学習は, 最小限の帰納バイアスにもかかわらず, 競争性能に寄与することが示唆された。
論文 参考訳(メタデータ) (2025-01-09T18:59:58Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Video SemNet: Memory-Augmented Video Semantic Network [14.64546899992196]
本稿では,低レベルデータ表現と視覚媒体の意味的側面のギャップを埋めることで,映画の物語要素を捉える機械学習手法を提案する。
本稿では、意味記述子をエンコードし、ビデオの埋め込みを学ぶために、ビデオセマンティックネットワーク(Video SemNet)というメモリ拡張ビデオセマンティックネットワークを提案する。
重み付きF-1スコアは0.72, IMDB評価は0.63である。
論文 参考訳(メタデータ) (2020-11-22T01:36:37Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。