論文の概要: COGITAO: A Visual Reasoning Framework To Study Compositionality & Generalization
- arxiv url: http://arxiv.org/abs/2509.05249v1
- Date: Fri, 05 Sep 2025 17:01:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.659682
- Title: COGITAO: A Visual Reasoning Framework To Study Compositionality & Generalization
- Title(参考訳): COGITAO: 構成性と一般化を研究するビジュアル推論フレームワーク
- Authors: Yassine Taoudi-Benchekroun, Klim Troyan, Pascal Sager, Stefan Gerber, Lukas Tuggener, Benjamin Grewe,
- Abstract要約: COGITAOは視覚領域の合成と一般化を研究するためのフレームワークである。
グリッドのような環境でオブジェクトに一連の変換を適用するルールベースのタスクを構築する。
合成を調整可能な深さで28個の変換でサポートし、グリッドのパラメトリゼーションとオブジェクト特性を広範囲に制御する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to compose learned concepts and apply them in novel settings is key to human intelligence, but remains a persistent limitation in state-of-the-art machine learning models. To address this issue, we introduce COGITAO, a modular and extensible data generation framework and benchmark designed to systematically study compositionality and generalization in visual domains. Drawing inspiration from ARC-AGI's problem-setting, COGITAO constructs rule-based tasks which apply a set of transformations to objects in grid-like environments. It supports composition, at adjustable depth, over a set of 28 interoperable transformations, along with extensive control over grid parametrization and object properties. This flexibility enables the creation of millions of unique task rules -- surpassing concurrent datasets by several orders of magnitude -- across a wide range of difficulties, while allowing virtually unlimited sample generation per rule. We provide baseline experiments using state-of-the-art vision models, highlighting their consistent failures to generalize to novel combinations of familiar elements, despite strong in-domain performance. COGITAO is fully open-sourced, including all code and datasets, to support continued research in this field.
- Abstract(参考訳): 学習した概念を合成し、それらを新しい設定で適用する能力は、人間の知性にとって重要だが、最先端の機械学習モデルでは依然として永続的な制限である。
この問題に対処するために,視覚領域における構成性と一般化を体系的に研究するために設計された,モジュラーで拡張可能なデータ生成フレームワークとベンチマークであるCOGITAOを紹介する。
ARC-AGIの問題解決からインスピレーションを得たCOGITAOは、グリッドのような環境でオブジェクトに一連の変換を適用するルールベースのタスクを構築している。
合成を調整可能な深さで28個の相互運用可能な変換でサポートし、グリッドのパラメトリゼーションとオブジェクト特性を広範囲に制御する。
この柔軟性により、数百万のユニークなタスクルール — 数桁の並列データセットを桁違いに越える — が、幅広い困難にわたって作成できると同時に、ルール毎に事実上無制限のサンプル生成が可能になる。
我々は最先端のビジョンモデルを用いたベースライン実験を行い、ドメイン内性能が強いにもかかわらず、慣れ親しんだ要素の新たな組み合わせに一般化する一貫した失敗を強調した。
COGITAOは、すべてのコードとデータセットを含む完全にオープンソースであり、この分野における継続的な研究をサポートする。
関連論文リスト
- Assemble Your Crew: Automatic Multi-agent Communication Topology Design via Autoregressive Graph Generation [72.44384066166147]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)は、多様な領域にわたる複雑な問題を扱うための強力なソリューションとして登場した。
既存のアプローチは、事前に定義されたエージェントセットとハードコードされた相互作用構造を持つテンプレートグラフ修正パラダイムに依存しているため、基本的に制限されている。
協調グラフをスクラッチから構築することで、このパラダイムを運用する新しい自己回帰モデルであるARG-Designerを提案する。
論文 参考訳(メタデータ) (2025-07-24T09:17:41Z) - Aggregated Structural Representation with Large Language Models for Human-Centric Layout Generation [7.980497203230983]
本稿では,グラフネットワークを大規模言語モデル (LLM) と統合して構造情報を保存し,生成能力を向上するアグリゲーション構造表現 (ASR) モジュールを提案する。
RICOデータセットに対する包括的評価は、平均的相互接続(mIoU)と、クラウドソーシングによるユーザスタディによる定性の両方を用いて、ASRの強い性能を示す。
論文 参考訳(メタデータ) (2025-05-26T06:17:21Z) - PuzzleBench: A Fully Dynamic Evaluation Framework for Large Multimodal Models on Puzzle Solving [50.50405233978406]
我々は、OVPG(Open-ended Visual Puzzle Generation)という、完全に動的なマルチモーダル評価フレームワークを提案する。
OVPGは、パズル解決タスクにおいて、新しく、多様性があり、検証可能な評価データを自動的に生成することを目的としている。
OVPG上に構築されたPuzzleBenchは11,840のVQAサンプルからなる動的でスケーラブルなベンチマークである。
論文 参考訳(メタデータ) (2025-04-15T05:29:31Z) - Adapting to Non-Stationary Environments: Multi-Armed Bandit Enhanced Retrieval-Augmented Generation on Knowledge Graphs [23.357843519762483]
近年の研究では、検索-拡張生成フレームワークと知識グラフを組み合わせることで、大規模言語モデルの推論能力を強力に向上することが示されている。
我々は多目的帯域拡張RAGフレームワークを導入し、多様な機能を持つ複数の検索手法をサポートする。
本手法は,定常環境下での最先端性能を達成しつつ,非定常環境でのベースライン手法を著しく向上させる。
論文 参考訳(メタデータ) (2024-12-10T15:56:03Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は,ユーザのデザイン意図に基づいて編集可能なポスターを生成する自動テキスト投稿システムを開発した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - Neural Constraint Satisfaction: Hierarchical Abstraction for
Combinatorial Generalization in Object Rearrangement [75.9289887536165]
基礎となるエンティティを明らかにするための階層的抽象化手法を提案する。
本研究では,エージェントのモデルにおける実体の状態の介入と,環境中の物体に作用する状態の対応関係を学習する方法を示す。
この対応を利用して、オブジェクトの異なる数や構成に一般化する制御法を開発する。
論文 参考訳(メタデータ) (2023-03-20T18:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。