論文の概要: Imagine the Unseen World: A Benchmark for Systematic Generalization in
Visual World Models
- arxiv url: http://arxiv.org/abs/2311.09064v1
- Date: Wed, 15 Nov 2023 16:02:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 15:17:40.885908
- Title: Imagine the Unseen World: A Benchmark for Systematic Generalization in
Visual World Models
- Title(参考訳): 見えない世界:ビジュアルワールドモデルにおけるシステム一般化のベンチマーク
- Authors: Yeongbin Kim, Gautam Singh, Junyeong Park, Caglar Gulcehre, Sungjin
Ahn
- Abstract要約: 本稿では,この問題を解決するために設計された最初のベンチマークである,SVIB(Systematic Visual Imagination Benchmark)を紹介する。
SVIBは、最小限の世界モデリング問題のための新しいフレームワークを提供する。このフレームワークでは、潜在世界力学の下でワンステップのイメージ・ツー・イメージ変換を生成する能力に基づいてモデルを評価する。
我々は,SVIBの様々なベースラインモデルについて総合評価を行い,系統的な視覚的想像力の現在の現状について考察する。
- 参考スコア(独自算出の注目度): 21.043565956630957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Systematic compositionality, or the ability to adapt to novel situations by
creating a mental model of the world using reusable pieces of knowledge,
remains a significant challenge in machine learning. While there has been
considerable progress in the language domain, efforts towards systematic visual
imagination, or envisioning the dynamical implications of a visual observation,
are in their infancy. We introduce the Systematic Visual Imagination Benchmark
(SVIB), the first benchmark designed to address this problem head-on. SVIB
offers a novel framework for a minimal world modeling problem, where models are
evaluated based on their ability to generate one-step image-to-image
transformations under a latent world dynamics. The framework provides benefits
such as the possibility to jointly optimize for systematic perception and
imagination, a range of difficulty levels, and the ability to control the
fraction of possible factor combinations used during training. We provide a
comprehensive evaluation of various baseline models on SVIB, offering insight
into the current state-of-the-art in systematic visual imagination. We hope
that this benchmark will help advance visual systematic compositionality.
- Abstract(参考訳): 体系的な構成性、または、再利用可能な知識を使って世界のメンタルモデルを作成することによって、新しい状況に適応する能力は、機械学習において重要な課題である。
言語領域にはかなりの進歩があったが、体系的な視覚的想像力への取り組みや、視覚的観察のダイナミックな影響を想像する努力は、その初期段階にある。
本稿では,この問題を解決するために設計された最初のベンチマークであるSVIB(Systematic Visual Imagination Benchmark)を紹介する。
svibは最小限の世界モデリング問題のための新しいフレームワークを提供し、潜在世界力学の下で1段階の画像から画像への変換を生成する能力に基づいてモデルを評価する。
このフレームワークは、システマティックな知覚と想像力を共同で最適化する可能性、難易度の範囲、トレーニング中に使用される要因の組み合わせの分断を制御する能力などの利点を提供する。
svibの様々なベースラインモデルの包括的評価を行い、システマティック・ビジュアル・イマジネーションにおける現在の最先端の知見を提供する。
このベンチマークが視覚的に体系的な構成性を促進することを願っています。
関連論文リスト
- Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models [85.55649666025926]
具体的計画能力を評価するために設計されたベンチマークデータセットであるCan-Doを紹介する。
私たちのデータセットには400のマルチモーダルサンプルが含まれており、それぞれが自然言語のユーザ指示、環境を描写した視覚イメージ、状態変化、対応するアクションプランで構成されています。
ニューログラウンド(NeuroGround)は、まず認識された環境状態において計画生成を基礎とし、次に象徴的な計画エンジンを活用してモデル生成計画を強化する、ニューログラウンド(NeuroGround)を提案する。
論文 参考訳(メタデータ) (2024-09-22T00:30:11Z) - ARPA: A Novel Hybrid Model for Advancing Visual Word Disambiguation Using Large Language Models and Transformers [1.6541870997607049]
変換器の高度な特徴抽出機能を備えた大規模言語モデルの非並列的文脈理解を融合したアーキテクチャであるARPAを提案する。
ARPAの導入は、視覚的単語の曖昧さにおいて重要なマイルストーンであり、魅力的なソリューションを提供する。
我々は研究者や実践者たちに、このようなハイブリッドモデルが人工知能の先例のない進歩を後押しする未来を想像して、我々のモデルの能力を探求するよう依頼する。
論文 参考訳(メタデータ) (2024-08-12T10:15:13Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。
本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:59:20Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - ComplAI: Theory of A Unified Framework for Multi-factor Assessment of
Black-Box Supervised Machine Learning Models [6.279863832853343]
ComplAIは、説明可能性、堅牢性、パフォーマンス、公正性、モデル行動を有効にし、観察し、分析し、定量化するユニークなフレームワークである。
教師付き機械学習モデルの評価は、正しい予測を行う能力だけでなく、全体的な責任の観点から行う。
論文 参考訳(メタデータ) (2022-12-30T08:48:19Z) - The dynamics of belief: continuously monitoring and visualising complex
systems [0.0]
人間のコンテキストにおけるAIの台頭は、自動化されたシステムに対する新たな要求を透明で説明可能なものにします。
我々は、複雑な人間の文脈でデジタルシステムを考えるための理論的枠組みを開発する。
論文 参考訳(メタデータ) (2022-08-11T11:51:35Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。