論文の概要: Visual Scratchpads: Enabling Global Reasoning in Vision
- arxiv url: http://arxiv.org/abs/2410.08165v1
- Date: Thu, 10 Oct 2024 17:44:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 04:55:58.968691
- Title: Visual Scratchpads: Enabling Global Reasoning in Vision
- Title(参考訳): ビジュアルスクラッチパッド - 視覚におけるグローバル推論の実現
- Authors: Aryo Lotfi, Enrico Fini, Samy Bengio, Moin Nabi, Emmanuel Abbe,
- Abstract要約: 経路発見と迷路を含む4つの世界的視覚的ベンチマークを紹介する。
我々は、今日の大きなビジョンモデルは初期のモデルの表現力の限界を大きく超えているが、学習効率に苦戦していることを示している。
- 参考スコア(独自算出の注目度): 37.09634351533441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern vision models have achieved remarkable success in benchmarks where local features provide critical information about the target. There is now a growing interest in solving tasks that require more global reasoning, where local features offer no significant information. These tasks are reminiscent of the connectivity tasks discussed by Minsky and Papert in 1969, which exposed the limitations of the perceptron model and contributed to the first AI winter. In this paper, we revisit such tasks by introducing four global visual benchmarks involving path findings and mazes. We show that: (1) although today's large vision models largely surpass the expressivity limitations of the early models, they still struggle with the learning efficiency; we put forward the "globality degree" notion to understand this limitation; (2) we then demonstrate that the picture changes and global reasoning becomes feasible with the introduction of "visual scratchpads"; similarly to the text scratchpads and chain-of-thoughts used in language models, visual scratchpads help break down global tasks into simpler ones; (3) we finally show that some scratchpads are better than others, in particular, "inductive scratchpads" that take steps relying on less information afford better out-of-distribution generalization and succeed for smaller model sizes.
- Abstract(参考訳): 現代のビジョンモデルは、局所的な特徴がターゲットに関する重要な情報を提供するベンチマークで顕著に成功している。
現在、ローカル機能が重要な情報を提供しない、よりグローバルな推論を必要とするタスクの解決への関心が高まっている。
これらのタスクは、1969年にミンスキーとパパートが議論したコネクティビティタスクを思い起こさせるものであり、パーセプトロンモデルの限界を露呈し、最初のAI冬に貢献した。
本稿では,経路発見と迷路を含む4つのグローバルな視覚的ベンチマークを導入することで,こうした課題を再考する。
1)今日の大きな視覚モデルは、初期のモデルの表現力の限界を大きく超えるが、学習効率に苦慮している。(2)この制限を理解するために、「グローバル度」の概念を推進し、(2)画像の変化とグローバルな推論が「視覚的スクラッチパッド」の導入によって実現可能であることを実証した; 言語モデルで使用されるテキストスクラッチパッドやチェーン・オブ・シークレットと同様に、視覚的スクラッチパッドは、グローバルなタスクをより単純なものに分解する。
関連論文リスト
- Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models [37.44286562901589]
本研究では,空間推論の多様な側面をカバーする新しいベンチマークであるSpatialEvalを提案する。
我々は、競合する言語と視覚言語モデルを総合的に評価する。
文献で見過ごされてきたいくつかの反直感的な洞察が明らかとなった。
論文 参考訳(メタデータ) (2024-06-21T03:53:37Z) - On Efficient Language and Vision Assistants for Visually-Situated Natural Language Understanding: What Matters in Reading and Reasoning [33.89483627891117]
言語と視覚アシスタントの最近の進歩は印象的な能力を示しているが、透明性の欠如に悩まされている。
オープンソースモデルは、一般的なイメージタスクを効果的に処理するが、複雑な視覚的なテキスト理解の高度な計算要求に直面する。
本研究の目的は、キーコンポーネントを特定し、制約付き推論コストで効率的なモデルを作成することにより、視覚言語モデルの設計を再定義することである。
論文 参考訳(メタデータ) (2024-06-17T17:57:30Z) - Toward Interactive Regional Understanding in Vision-Large Language Models [42.43961173412382]
明示的な地域モデリング機能を備えたtextbfRegionVLM を導入する。
我々は、新しい情報ソース、すなわちローカライズド・ナラティブを含むデータセットを活用する。
本実験は,対話型対話システムを実現するだけでなく,様々なゼロショット領域理解タスクにおいて優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-03-27T05:22:06Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Graph Meets LLMs: Towards Large Graph Models [60.24970313736175]
本稿では,大規模グラフモデルの開発に伴う課題と機会について論じる。
まず,大規模グラフモデルの所望の特性について考察する。
次に、表現ベース、グラフデータ、グラフモデルという3つの重要な視点から詳細な議論を行う。
論文 参考訳(メタデータ) (2023-08-28T12:17:51Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - What does CLIP know about a red circle? Visual prompt engineering for
VLMs [116.8806079598019]
テキストの代わりに画像空間を編集することで、分類を超えたコンピュータビジョンタスクを解くための視覚的プロンプトエンジニアリングのアイデアを探求する。
キーポイントのローカライゼーションタスクにおけるゼロショット参照表現の理解と強力な性能を両立させることにより,このシンプルなアプローチのパワーを示す。
論文 参考訳(メタデータ) (2023-04-13T17:58:08Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。