論文の概要: Reasoning in machine vision: learning to think fast and slow
- arxiv url: http://arxiv.org/abs/2506.22075v1
- Date: Fri, 27 Jun 2025 10:03:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.166258
- Title: Reasoning in machine vision: learning to think fast and slow
- Title(参考訳): マシンビジョンにおける推論 - 速く、ゆっくり考えることを学ぶ
- Authors: Shaheer U. Saeed, Yipei Wang, Veeru Kasivisvanathan, Brian R. Davidson, Matthew J. Clarkson, Yipeng Hu, Daniel C. Alexander,
- Abstract要約: 推論は人間の知性の目印であり、複雑で不慣れなシナリオで適応的な意思決定を可能にする。
マシンインテリジェンスは、推論時にソリューションを動的に洗練する能力がないため、トレーニングデータに縛られている。
本稿では,思考時間の増加に伴う性能向上を実現することにより,視覚における機械推論を可能にする新しい学習パラダイムを提案する。
- 参考スコア(独自算出の注目度): 10.430190333487957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning is a hallmark of human intelligence, enabling adaptive decision-making in complex and unfamiliar scenarios. In contrast, machine intelligence remains bound to training data, lacking the ability to dynamically refine solutions at inference time. While some recent advances have explored reasoning in machines, these efforts are largely limited to verbal domains such as mathematical problem-solving, where explicit rules govern step-by-step reasoning. Other critical real-world tasks - including visual perception, spatial reasoning, and radiological diagnosis - require non-verbal reasoning, which remains an open challenge. Here we present a novel learning paradigm that enables machine reasoning in vision by allowing performance improvement with increasing thinking time (inference-time compute), even under conditions where labelled data is very limited. Inspired by dual-process theories of human cognition in psychology, our approach integrates a fast-thinking System I module for familiar tasks, with a slow-thinking System II module that iteratively refines solutions using self-play reinforcement learning. This paradigm mimics human reasoning by proposing, competing over, and refining solutions in data-scarce scenarios. We demonstrate superior performance through extended thinking time, compared not only to large-scale supervised learning but also foundation models and even human experts, in real-world vision tasks. These tasks include computer-vision benchmarks and cancer localisation on medical images across five organs, showcasing transformative potential for non-verbal machine reasoning.
- Abstract(参考訳): 推論は人間の知性の目印であり、複雑で不慣れなシナリオで適応的な意思決定を可能にする。
対照的に、マシンインテリジェンスはトレーニングデータに縛り付けられており、推論時に動的に解を洗練できない。
いくつかの最近の進歩は機械の推論を探求しているが、これらの取り組みは数学的問題解決のような言語領域に限られており、明示的な規則がステップバイステップの推論を支配している。
視覚的知覚、空間的推論、放射線学的診断を含む他の重要な現実世界のタスクは、非言語的推論を必要とするが、これは未解決の課題である。
本稿では,ラベル付きデータが非常に制限された条件下であっても,思考時間(推論時間)の増大に伴う性能向上を可能とし,視覚における機械推論を可能にする新しい学習パラダイムを提案する。
心理学における人間の認知に関する二重プロセス理論に触発され、我々のアプローチは、慣れ親しんだタスクのための高速思考システムIモジュールと、セルフプレイ強化学習を用いてソリューションを反復的に洗練するスロー思考システムIIモジュールを統合した。
このパラダイムは、データスカースシナリオにおけるソリューションの提案、競合、精製によって、人間の推論を模倣する。
実世界の視覚タスクにおいて,大規模教師付き学習だけでなく,基礎モデルや人間専門家にも比較して,思考時間の延長による優れたパフォーマンスを示す。
これらのタスクには、コンピュータビジョンのベンチマークと、5つの臓器にわたる医療画像のがん局所化が含まれており、非言語機械推論の変革の可能性を示している。
関連論文リスト
- DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning [11.242852367476015]
DeepEyesは、エンドツーエンドの強化学習を通じてインセンティブを得た、“イメージで考える”機能を備えたモデルである。
本稿では,ツール・ユース指向のデータ選択機構と報奨戦略を提案する。
DeepEyesは、微粒な認識と推論ベンチマークにおいて、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-05-20T13:48:11Z) - VisuoThink: Empowering LVLM Reasoning with Multimodal Tree Search [89.43196232124883]
VisuoThinkは、視覚空間と言語ドメインをシームレスに統合する新しいフレームワークである。
プログレッシブなビジュアルテキスト推論を可能にし、ルックアヘッドツリーサーチによるテストタイムスケーリングを組み込む。
論文 参考訳(メタデータ) (2025-04-12T08:37:30Z) - Dual Thinking and Logical Processing -- Are Multi-modal Large Language Models Closing the Gap with Human Vision ? [5.076961098583674]
我々は、人間の視覚における二重思考の枠組みの証拠を提供するために、新しい敵対的データセットを導入する。
私たちの精神物理学的な研究は、急速に続く複数の推論の存在を示しています。
エラーの解析は、視覚処理の早期停止は、関連する情報が欠落する可能性があることを示している。
論文 参考訳(メタデータ) (2024-06-11T05:50:34Z) - Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic
Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文 参考訳(メタデータ) (2023-11-13T21:20:17Z) - A Survey on Brain-Inspired Deep Learning via Predictive Coding [85.93245078403875]
予測符号化(PC)は、マシンインテリジェンスタスクにおいて有望なパフォーマンスを示している。
PCは様々な脳領域で情報処理をモデル化することができ、認知制御やロボティクスで使用することができる。
論文 参考訳(メタデータ) (2023-08-15T16:37:16Z) - Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。
本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。
これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文 参考訳(メタデータ) (2023-03-24T13:24:41Z) - Learning to Complement Humans [67.38348247794949]
オープンワールドにおけるAIに対するビジョンの高まりは、知覚、診断、推論タスクのために人間を補完できるシステムの開発に焦点を当てている。
我々は,人間-機械チームの複合的なパフォーマンスを最適化するために,エンド・ツー・エンドの学習戦略をどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2020-05-01T20:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。