Fugu-MT 論文翻訳(概要): Imagine the Unseen World: A Benchmark for Systematic Generalization in Visual World Models

論文の概要: Imagine the Unseen World: A Benchmark for Systematic Generalization in Visual World Models

arxiv url: http://arxiv.org/abs/2311.09064v1
Date: Wed, 15 Nov 2023 16:02:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-16 15:17:40.885908
Title: Imagine the Unseen World: A Benchmark for Systematic Generalization in Visual World Models
Title（参考訳）: 見えない世界:ビジュアルワールドモデルにおけるシステム一般化のベンチマーク
Authors: Yeongbin Kim, Gautam Singh, Junyeong Park, Caglar Gulcehre, Sungjin Ahn
Abstract要約: 本稿では,この問題を解決するために設計された最初のベンチマークである,SVIB(Systematic Visual Imagination Benchmark)を紹介する。 SVIBは、最小限の世界モデリング問題のための新しいフレームワークを提供する。このフレームワークでは、潜在世界力学の下でワンステップのイメージ・ツー・イメージ変換を生成する能力に基づいてモデルを評価する。我々は,SVIBの様々なベースラインモデルについて総合評価を行い,系統的な視覚的想像力の現在の現状について考察する。
参考スコア（独自算出の注目度）: 21.043565956630957
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Systematic compositionality, or the ability to adapt to novel situations by creating a mental model of the world using reusable pieces of knowledge, remains a significant challenge in machine learning. While there has been considerable progress in the language domain, efforts towards systematic visual imagination, or envisioning the dynamical implications of a visual observation, are in their infancy. We introduce the Systematic Visual Imagination Benchmark (SVIB), the first benchmark designed to address this problem head-on. SVIB offers a novel framework for a minimal world modeling problem, where models are evaluated based on their ability to generate one-step image-to-image transformations under a latent world dynamics. The framework provides benefits such as the possibility to jointly optimize for systematic perception and imagination, a range of difficulty levels, and the ability to control the fraction of possible factor combinations used during training. We provide a comprehensive evaluation of various baseline models on SVIB, offering insight into the current state-of-the-art in systematic visual imagination. We hope that this benchmark will help advance visual systematic compositionality.
Abstract（参考訳）: 体系的な構成性、または、再利用可能な知識を使って世界のメンタルモデルを作成することによって、新しい状況に適応する能力は、機械学習において重要な課題である。言語領域にはかなりの進歩があったが、体系的な視覚的想像力への取り組みや、視覚的観察のダイナミックな影響を想像する努力は、その初期段階にある。本稿では,この問題を解決するために設計された最初のベンチマークであるSVIB(Systematic Visual Imagination Benchmark)を紹介する。 svibは最小限の世界モデリング問題のための新しいフレームワークを提供し、潜在世界力学の下で1段階の画像から画像への変換を生成する能力に基づいてモデルを評価する。このフレームワークは、システマティックな知覚と想像力を共同で最適化する可能性、難易度の範囲、トレーニング中に使用される要因の組み合わせの分断を制御する能力などの利点を提供する。 svibの様々なベースラインモデルの包括的評価を行い、システマティック・ビジュアル・イマジネーションにおける現在の最先端の知見を提供する。このベンチマークが視覚的に体系的な構成性を促進することを願っています。

関連論文リスト

Hyperphantasia: A Benchmark for Evaluating the Mental Visualization Capabilities of Multimodal LLMs [22.46006112029019]
メンタル・ヴィジュアライゼーションは人間にとって重要な認知能力であり、空間ナビゲーション、物理的な軌道予測、想像的シミュレーションによる複雑な視覚問題の解決などの能力をサポートする。マルチモーダル大規模言語モデル (MLLM) の心的可視化能力を評価するために, 慎重に構築された4つのパズルを用いて, ハイパーファンタジア(Hyperphantasia)を提案する。我々の最先端モデルに対する包括的評価は、人間とMLLMの性能の間に大きなギャップがあることを示唆している。
論文参考訳（メタデータ） (2025-07-16T05:54:37Z)
EyeSim-VQA: A Free-Energy-Guided Eye Simulation Framework for Video Quality Assessment [68.77813885751308]
EyeSimVQAは、自由エネルギーベースの自己修復を取り入れた新しいVQAフレームワークである。現状の手法と比較して,EyeSimVQAは競争力や性能に優れることを示す。
論文参考訳（メタデータ） (2025-06-13T08:00:54Z)
Thinking with Generated Images [30.28526622443551]
我々は,大規模マルチモーダルモデル(LMM)が視覚的推論にどのように関与するかを変換する,新しいパラダイムであるThinking with Generated Imagesを紹介する。我々のアプローチは、AIモデルが人間の創造的、分析的、戦略的思考を特徴づける視覚的想像力や反復的な洗練に関わり得ることを可能にする。
論文参考訳（メタデータ） (2025-05-28T16:12:45Z)
V$^2$R-Bench: Holistically Evaluating LVLM Robustness to Fundamental Visual Variations [1.7971686967440696]
V$2$R-Benchは、LVLMの視覚変化ロバスト性を評価するためのベンチマークフレームワークである。本研究では,複雑な視覚言語タスクに優れた高度なモデルが,オブジェクト認識などの単純なタスクでは著しく性能が劣っていることを示す。これらの脆弱性は、パイプラインアーキテクチャにおけるエラーの蓄積と、マルチモーダルアライメントの不十分に起因する。
論文参考訳（メタデータ） (2025-04-23T14:01:32Z)
Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文参考訳（メタデータ） (2025-03-26T16:05:01Z)
Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models [85.55649666025926]
具体的計画能力を評価するために設計されたベンチマークデータセットであるCan-Doを紹介する。私たちのデータセットには400のマルチモーダルサンプルが含まれており、それぞれが自然言語のユーザ指示、環境を描写した視覚イメージ、状態変化、対応するアクションプランで構成されています。ニューログラウンド(NeuroGround)は、まず認識された環境状態において計画生成を基礎とし、次に象徴的な計画エンジンを活用してモデル生成計画を強化する、ニューログラウンド(NeuroGround)を提案する。
論文参考訳（メタデータ） (2024-09-22T00:30:11Z)
ARPA: A Novel Hybrid Model for Advancing Visual Word Disambiguation Using Large Language Models and Transformers [1.6541870997607049]
変換器の高度な特徴抽出機能を備えた大規模言語モデルの非並列的文脈理解を融合したアーキテクチャであるARPAを提案する。 ARPAの導入は、視覚的単語の曖昧さにおいて重要なマイルストーンであり、魅力的なソリューションを提供する。我々は研究者や実践者たちに、このようなハイブリッドモデルが人工知能の先例のない進歩を後押しする未来を想像して、我々のモデルの能力を探求するよう依頼する。
論文参考訳（メタデータ） (2024-08-12T10:15:13Z)
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文参考訳（メタデータ） (2024-06-24T17:59:42Z)
Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文参考訳（メタデータ） (2024-06-13T17:59:20Z)
Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文参考訳（メタデータ） (2023-07-25T17:59:18Z)
Predictive Experience Replay for Continual Visual Control and Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
ComplAI: Theory of A Unified Framework for Multi-factor Assessment of Black-Box Supervised Machine Learning Models [6.279863832853343]
ComplAIは、説明可能性、堅牢性、パフォーマンス、公正性、モデル行動を有効にし、観察し、分析し、定量化するユニークなフレームワークである。教師付き機械学習モデルの評価は、正しい予測を行う能力だけでなく、全体的な責任の観点から行う。
論文参考訳（メタデータ） (2022-12-30T08:48:19Z)
The dynamics of belief: continuously monitoring and visualising complex systems [0.0]
人間のコンテキストにおけるAIの台頭は、自動化されたシステムに対する新たな要求を透明で説明可能なものにします。我々は、複雑な人間の文脈でデジタルシステムを考えるための理論的枠組みを開発する。
論文参考訳（メタデータ） (2022-08-11T11:51:35Z)
K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文参考訳（メタデータ） (2022-04-20T04:47:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。