論文の概要: Video models are zero-shot learners and reasoners
- arxiv url: http://arxiv.org/abs/2509.20328v1
- Date: Wed, 24 Sep 2025 17:17:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.918991
- Title: Video models are zero-shot learners and reasoners
- Title(参考訳): ビデオモデルはゼロショット学習者および推論者である
- Authors: Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, Shixiang Shane Gu, Nick Matarese, Kevin Swersky, Been Kim, Priyank Jaini, Robert Geirhos,
- Abstract要約: Veo 3は、明示的にトレーニングされていないさまざまなタスクを解決できます。
Veoの創発的なゼロショット機能は、ビデオモデルが統一された一般的なビジョン基盤モデルへの道のりにあることを示している。
- 参考スコア(独自算出の注目度): 33.694362486721865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable zero-shot capabilities of Large Language Models (LLMs) have propelled natural language processing from task-specific models to unified, generalist foundation models. This transformation emerged from simple primitives: large, generative models trained on web-scale data. Curiously, the same primitives apply to today's generative video models. Could video models be on a trajectory towards general-purpose vision understanding, much like LLMs developed general-purpose language understanding? We demonstrate that Veo 3 can solve a broad variety of tasks it wasn't explicitly trained for: segmenting objects, detecting edges, editing images, understanding physical properties, recognizing object affordances, simulating tool use, and more. These abilities to perceive, model, and manipulate the visual world enable early forms of visual reasoning like maze and symmetry solving. Veo's emergent zero-shot capabilities indicate that video models are on a path to becoming unified, generalist vision foundation models.
- Abstract(参考訳): LLM(Large Language Models)の目覚ましいゼロショット機能は、タスク固有のモデルから汎用的な基盤モデルへの自然言語処理を推進している。
この変換は、Webスケールのデータに基づいてトレーニングされた大規模な生成モデルという単純なプリミティブから生まれた。
事実、今日の世代別ビデオモデルにも、同じプリミティブが当てはまる。
LLMが汎用言語理解を開発したのと同じように、ビデオモデルは汎用的な視覚理解に向けた軌道上にあるのだろうか?
オブジェクトのセグメンテーション、エッジの検出、画像の編集、物理的特性の理解、オブジェクトの余裕の認識、ツールの使用のシミュレートなどです。
これらの視覚世界を知覚し、モデル化し、操作する能力は、迷路や対称性の解決のような初期の視覚的推論を可能にします。
Veoの創発的なゼロショット機能は、ビデオモデルが統一された一般的なビジョン基盤モデルへの道のりにあることを示している。
関連論文リスト
- From Generation to Generalization: Emergent Few-Shot Learning in Video Diffusion Models [65.0487600936788]
ビデオ拡散モデル(VDM)は高品質なコンテンツを合成できる強力な生成ツールとして登場した。
我々は、VDMが自然に構造化された表現を探索し、視覚世界を暗黙的に理解することを主張する。
提案手法は,各タスクを視覚遷移に変換し,短い入力シーケンス上でLoRA重みのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-06-08T20:52:34Z) - Language Model Guided Interpretable Video Action Reasoning [32.999621421295416]
我々はLanguage-guided Interpretable Action Recognition framework (LaIAR)という新しいフレームワークを提案する。
LaIARは、言語モデルからの知識を活用して、認識能力とビデオモデルの解釈可能性の両方を強化する。
本質的には、ビデオモデルと言語モデルを整合させるタスクとして、ビデオモデル決定を理解することの問題を再定義する。
論文 参考訳(メタデータ) (2024-04-02T02:31:13Z) - Self-supervised learning of video representations from a child's perspective [27.439294457852423]
子どもたちは、エゴセントリックな視覚経験から、周囲の強力な内部モデルを学びます。
そのような内部モデルは、高度に汎用的な学習アルゴリズムで子どもの視覚経験から学べるか、あるいは強い帰納的バイアスを必要とするのか?
論文 参考訳(メタデータ) (2024-02-01T03:27:26Z) - A Vision Check-up for Language Models [61.852026871772914]
テキストのモデルを用いて、予備的な視覚表現学習システムをどのように訓練するかを示す。
自己教師付き視覚表現学習の実験は、自然画像のセマンティックアセスメントを行うことができる視覚モデルを訓練する可能性を強調している。
論文 参考訳(メタデータ) (2024-01-03T18:09:33Z) - GPT4Image: Large Pre-trained Models Help Vision Models Learn Better on Perception Task [47.1857510710807]
我々はGPT4Imageと呼ばれる新しい学習フレームワークを提案し、CNNやViTがより良い表現を学ぶのに役立つ大規模な事前学習モデルの知識を抽出する。
本研究では,様々な視覚認知タスクにおける提案アルゴリズムの有効性を検証するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z) - Unsupervised Object Learning via Common Fate [61.14802390241075]
ビデオから生成オブジェクトモデルを学習することは、長い問題であり、因果的シーンモデリングに必要である。
この問題を3つの簡単なサブタスクに分解し、それぞれに候補解を提供する。
提案手法は,入力ビデオのオクルージョンを超えて一般化された生成モデルを学習することができることを示す。
論文 参考訳(メタデータ) (2021-10-13T08:22:04Z) - Learning Video Models from Text: Zero-Shot Anticipation for Procedural
Actions [30.88621433812347]
本稿では,大規模テキストコーパスから指導知識を一般化し,その知識をビデオに転送する階層モデルを提案する。
指導ビデオの一部が与えられた後、我々のモデルは、リッチな自然言語で、未来への複数のステップにおいて、一貫性のある、もっともらしい行動を認識し、予測する。
論文 参考訳(メタデータ) (2021-06-06T15:43:39Z) - CAZSL: Zero-Shot Regression for Pushing Models by Generalizing Through
Context [13.217582954907234]
本研究では、文脈認識モデルを構築することにより、物理世界のモデルを一般化できるディープラーニングエージェントを設計する問題について検討する。
本稿では、文脈対応ゼロショット学習(CAZSL)モデル、シームズネットワークを利用したアプローチ、埋め込み空間、文脈変数に基づく正規化を提案する。
提案した学習アルゴリズムを最近リリースされたOmnipushデータセット上でテストし、メタ学習機能のテストを可能にした。
論文 参考訳(メタデータ) (2020-03-26T01:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。