論文の概要: Chain-of-Sketch: Enabling Global Visual Reasoning
- arxiv url: http://arxiv.org/abs/2410.08165v2
- Date: Thu, 26 Jun 2025 17:48:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.794893
- Title: Chain-of-Sketch: Enabling Global Visual Reasoning
- Title(参考訳): Chain-of-Sketch:グローバルビジュアル推論の実現
- Authors: Aryo Lotfi, Enrico Fini, Samy Bengio, Moin Nabi, Emmanuel Abbe,
- Abstract要約: グラフ、文字列、迷路、画像グリッドを含む、拡張されたグローバルなビジュアルデータセットを紹介します。
大規模なビジョンモデルは、これらのタスクを効率的に学習するのに依然として苦労している。
本稿では,この学習効率の低下を緩和するために,チェーン・オブ・スケッチ(CoS)と呼ばれる手法を提案する。
- 参考スコア(独自算出の注目度): 37.09634351533441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern vision models have achieved remarkable success in benchmarks where local features provide critical information about the target. There is now a growing interest in tackling tasks requiring more global reasoning, where local features do not provide significant information. Minsky and Papert put forward such tasks in 1969 with their connectivity study, exposing the limitations of the perceptron model. In this paper, we introduce an expanded set of global visual datasets involving graphs, strings, mazes, and image grids. We show that large vision models still struggle to learn these tasks efficiently. Similarly, state-of-the-art multi-modal LLMs perform poorly on these datasets. We explain this learning inefficiency by means of the 'globality degree' measure. To mitigate this, we propose a method called chain-of-sketch (CoS). Similar to the chain-of-thought and scratchpad techniques used in language models, CoS breaks the original task into intermediate visual steps to help learn a complex task. In addition, we show that not all CoS strategies perform equally well. Our key insight is to impose a Markovian structure on the CoS frames. This leads to the introduction of 'inductive CoS' which achieves better out-of-distribution generalization and performs well even with smaller models compared to non-inductive variants.
- Abstract(参考訳): 現代のビジョンモデルは、局所的な特徴がターゲットに関する重要な情報を提供するベンチマークで顕著に成功している。
現在、ローカル機能は重要な情報を提供しない、よりグローバルな推論を必要とするタスクに取り組むことへの関心が高まっている。
ミンスキーとパジェットは1969年に接続性の研究を行い、パーセプトロンモデルの限界を明らかにした。
本稿では,グラフ,文字列,迷路,画像グリッドを含むグローバルな視覚データセット群について紹介する。
大規模なビジョンモデルは、これらのタスクを効率的に学習するのに依然として苦労している。
同様に、最先端のマルチモーダルLCMはこれらのデータセットでは性能が良くない。
本稿では,この学習の非効率性について,「グローバル度」尺度を用いて説明する。
これを軽減するために,チェーン・オブ・スケッチ(CoS)と呼ばれる手法を提案する。
言語モデルで使用されるチェーンとスクラッチパッドのテクニックと同様に、CoSは、元のタスクを中間的な視覚ステップに分割して、複雑なタスクを学習する。
さらに、全てのCoS戦略が等しく機能するわけではないことを示す。
私たちの重要な洞察は、CoSフレームにマルコフ構造を加えることです。
これは「帰納的CoS」を導入し、非帰納的変種と比較してより小さなモデルでもうまく機能する。
関連論文リスト
- Open-World Reinforcement Learning over Long Short-Term Imagination [91.28998327423295]
高次元オープンワールドにおける視覚的強化学習エージェントの訓練は、大きな課題を呈している。
LS-Imagineは、有限個の状態遷移ステップにおいて、イマジネーションの地平線を拡大する。
我々の手法は、MineDojoの最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-10-04T17:17:30Z) - Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models [37.44286562901589]
本研究では,空間推論の多様な側面をカバーする新しいベンチマークであるSpatialEvalを提案する。
我々は、競合する言語と視覚言語モデルを総合的に評価する。
文献で見過ごされてきたいくつかの反直感的な洞察が明らかとなった。
論文 参考訳(メタデータ) (2024-06-21T03:53:37Z) - On Efficient Language and Vision Assistants for Visually-Situated Natural Language Understanding: What Matters in Reading and Reasoning [33.89483627891117]
言語と視覚アシスタントの最近の進歩は印象的な能力を示しているが、透明性の欠如に悩まされている。
オープンソースモデルは、一般的なイメージタスクを効果的に処理するが、複雑な視覚的なテキスト理解の高度な計算要求に直面する。
本研究の目的は、キーコンポーネントを特定し、制約付き推論コストで効率的なモデルを作成することにより、視覚言語モデルの設計を再定義することである。
論文 参考訳(メタデータ) (2024-06-17T17:57:30Z) - Toward Interactive Regional Understanding in Vision-Large Language Models [42.43961173412382]
明示的な地域モデリング機能を備えたtextbfRegionVLM を導入する。
我々は、新しい情報ソース、すなわちローカライズド・ナラティブを含むデータセットを活用する。
本実験は,対話型対話システムを実現するだけでなく,様々なゼロショット領域理解タスクにおいて優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-03-27T05:22:06Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Graph Meets LLMs: Towards Large Graph Models [60.24970313736175]
本稿では,大規模グラフモデルの開発に伴う課題と機会について論じる。
まず,大規模グラフモデルの所望の特性について考察する。
次に、表現ベース、グラフデータ、グラフモデルという3つの重要な視点から詳細な議論を行う。
論文 参考訳(メタデータ) (2023-08-28T12:17:51Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - What does CLIP know about a red circle? Visual prompt engineering for
VLMs [116.8806079598019]
テキストの代わりに画像空間を編集することで、分類を超えたコンピュータビジョンタスクを解くための視覚的プロンプトエンジニアリングのアイデアを探求する。
キーポイントのローカライゼーションタスクにおけるゼロショット参照表現の理解と強力な性能を両立させることにより,このシンプルなアプローチのパワーを示す。
論文 参考訳(メタデータ) (2023-04-13T17:58:08Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。