論文の概要: Imagine the Unseen World: A Benchmark for Systematic Generalization in
Visual World Models
- arxiv url: http://arxiv.org/abs/2311.09064v1
- Date: Wed, 15 Nov 2023 16:02:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 15:17:40.885908
- Title: Imagine the Unseen World: A Benchmark for Systematic Generalization in
Visual World Models
- Title(参考訳): 見えない世界:ビジュアルワールドモデルにおけるシステム一般化のベンチマーク
- Authors: Yeongbin Kim, Gautam Singh, Junyeong Park, Caglar Gulcehre, Sungjin
Ahn
- Abstract要約: 本稿では,この問題を解決するために設計された最初のベンチマークである,SVIB(Systematic Visual Imagination Benchmark)を紹介する。
SVIBは、最小限の世界モデリング問題のための新しいフレームワークを提供する。このフレームワークでは、潜在世界力学の下でワンステップのイメージ・ツー・イメージ変換を生成する能力に基づいてモデルを評価する。
我々は,SVIBの様々なベースラインモデルについて総合評価を行い,系統的な視覚的想像力の現在の現状について考察する。
- 参考スコア(独自算出の注目度): 21.043565956630957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Systematic compositionality, or the ability to adapt to novel situations by
creating a mental model of the world using reusable pieces of knowledge,
remains a significant challenge in machine learning. While there has been
considerable progress in the language domain, efforts towards systematic visual
imagination, or envisioning the dynamical implications of a visual observation,
are in their infancy. We introduce the Systematic Visual Imagination Benchmark
(SVIB), the first benchmark designed to address this problem head-on. SVIB
offers a novel framework for a minimal world modeling problem, where models are
evaluated based on their ability to generate one-step image-to-image
transformations under a latent world dynamics. The framework provides benefits
such as the possibility to jointly optimize for systematic perception and
imagination, a range of difficulty levels, and the ability to control the
fraction of possible factor combinations used during training. We provide a
comprehensive evaluation of various baseline models on SVIB, offering insight
into the current state-of-the-art in systematic visual imagination. We hope
that this benchmark will help advance visual systematic compositionality.
- Abstract(参考訳): 体系的な構成性、または、再利用可能な知識を使って世界のメンタルモデルを作成することによって、新しい状況に適応する能力は、機械学習において重要な課題である。
言語領域にはかなりの進歩があったが、体系的な視覚的想像力への取り組みや、視覚的観察のダイナミックな影響を想像する努力は、その初期段階にある。
本稿では,この問題を解決するために設計された最初のベンチマークであるSVIB(Systematic Visual Imagination Benchmark)を紹介する。
svibは最小限の世界モデリング問題のための新しいフレームワークを提供し、潜在世界力学の下で1段階の画像から画像への変換を生成する能力に基づいてモデルを評価する。
このフレームワークは、システマティックな知覚と想像力を共同で最適化する可能性、難易度の範囲、トレーニング中に使用される要因の組み合わせの分断を制御する能力などの利点を提供する。
svibの様々なベースラインモデルの包括的評価を行い、システマティック・ビジュアル・イマジネーションにおける現在の最先端の知見を提供する。
このベンチマークが視覚的に体系的な構成性を促進することを願っています。
関連論文リスト
- Few Shot Class Incremental Learning using Vision-Language models [24.930246674021525]
本研究では,言語正規化器と部分空間正規化器を利用する,革新的な数ショットクラスインクリメンタルラーニング(FSCIL)フレームワークを提案する。
提案するフレームワークは,限られたデータを持つ新しいクラスをモデルに導入するだけでなく,ベースクラスのパフォーマンスの維持も保証する。
論文 参考訳(メタデータ) (2024-05-02T06:52:49Z) - Improving In-Context Learning in Diffusion Models with Visual
Context-Modulated Prompts [83.03471704115786]
本研究では,改良型プロンプト拡散(iPromptDiff)を紹介する。
iPromptDiffは、視覚コンテキストを埋め込みベクトルに変換するエンドツーエンドのトレーニングされた視覚エンコーダを統合する。
拡散に基づく視覚基盤モデルにおいて,この視覚的文脈変調テキストガイダンスと標準制御ネット構造を組み込んだ場合,多種多様な学習課題における多目的性と堅牢性を示すことを示す。
論文 参考訳(メタデータ) (2023-12-03T14:15:52Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - ComplAI: Theory of A Unified Framework for Multi-factor Assessment of
Black-Box Supervised Machine Learning Models [6.279863832853343]
ComplAIは、説明可能性、堅牢性、パフォーマンス、公正性、モデル行動を有効にし、観察し、分析し、定量化するユニークなフレームワークである。
教師付き機械学習モデルの評価は、正しい予測を行う能力だけでなく、全体的な責任の観点から行う。
論文 参考訳(メタデータ) (2022-12-30T08:48:19Z) - Perceive, Ground, Reason, and Act: A Benchmark for General-purpose
Visual Representation [26.039045505150526]
現在のコンピュータビジョンモデルは、人間の視覚システムとは異なり、汎用的な視覚的理解がまだ得られていない。
視覚認知能力の全スペクトルを網羅する総合的視覚理解評価(General Visual Understanding Evaluation)を提案する。
論文 参考訳(メタデータ) (2022-11-28T15:06:07Z) - The dynamics of belief: continuously monitoring and visualising complex
systems [0.0]
人間のコンテキストにおけるAIの台頭は、自動化されたシステムに対する新たな要求を透明で説明可能なものにします。
我々は、複雑な人間の文脈でデジタルシステムを考えるための理論的枠組みを開発する。
論文 参考訳(メタデータ) (2022-08-11T11:51:35Z) - Learning dynamics from partial observations with structured neural ODEs [5.757156314867639]
本稿では,ニューラルODEに基づくシステム識別に関する幅広い物理的知見を取り入れたフレキシブルなフレームワークを提案する。
本稿では,ロボット外骨格を用いた数値シミュレーションおよび実験データセットにおける提案手法の性能について述べる。
論文 参考訳(メタデータ) (2022-05-25T07:54:10Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。