論文の概要: Thinking with Generated Images
- arxiv url: http://arxiv.org/abs/2505.22525v1
- Date: Wed, 28 May 2025 16:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.721164
- Title: Thinking with Generated Images
- Title(参考訳): 生成したイメージで考える
- Authors: Ethan Chern, Zhulin Hu, Steffi Chern, Siqi Kou, Jiadi Su, Yan Ma, Zhijie Deng, Pengfei Liu,
- Abstract要約: 我々は,大規模マルチモーダルモデル(LMM)が視覚的推論にどのように関与するかを変換する,新しいパラダイムであるThinking with Generated Imagesを紹介する。
我々のアプローチは、AIモデルが人間の創造的、分析的、戦略的思考を特徴づける視覚的想像力や反復的な洗練に関わり得ることを可能にする。
- 参考スコア(独自算出の注目度): 30.28526622443551
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present Thinking with Generated Images, a novel paradigm that fundamentally transforms how large multimodal models (LMMs) engage with visual reasoning by enabling them to natively think across text and vision modalities through spontaneous generation of intermediate visual thinking steps. Current visual reasoning with LMMs is constrained to either processing fixed user-provided images or reasoning solely through text-based chain-of-thought (CoT). Thinking with Generated Images unlocks a new dimension of cognitive capability where models can actively construct intermediate visual thoughts, critique their own visual hypotheses, and refine them as integral components of their reasoning process. We demonstrate the effectiveness of our approach through two complementary mechanisms: (1) vision generation with intermediate visual subgoals, where models decompose complex visual tasks into manageable components that are generated and integrated progressively, and (2) vision generation with self-critique, where models generate an initial visual hypothesis, analyze its shortcomings through textual reasoning, and produce refined outputs based on their own critiques. Our experiments on vision generation benchmarks show substantial improvements over baseline approaches, with our models achieving up to 50% (from 38% to 57%) relative improvement in handling complex multi-object scenarios. From biochemists exploring novel protein structures, and architects iterating on spatial designs, to forensic analysts reconstructing crime scenes, and basketball players envisioning strategic plays, our approach enables AI models to engage in the kind of visual imagination and iterative refinement that characterizes human creative, analytical, and strategic thinking. We release our open-source suite at https://github.com/GAIR-NLP/thinking-with-generated-images.
- Abstract(参考訳): 我々は、テキストと視覚のモダリティをネイティブに思考できるようにすることにより、大規模マルチモーダルモデル(LMM)が視覚的推論にどのように関与するかを根本的に変える新しいパラダイムであるThinking with Generated Imagesを提案する。
LMMによる現在の視覚的推論は、固定されたユーザが提供するイメージを処理するか、テキストベースのチェーン・オブ・シークレット(CoT)によってのみ推論される。
モデルでは、中間的な視覚的思考を積極的に構築し、自身の視覚的仮説を批判し、それらを推論プロセスの不可欠な要素として洗練することができる。
我々は,(1)中間視覚サブゴールを用いた視覚生成,(2)複雑な視覚タスクを,段階的に生成・統合される管理可能なコンポーネントに分解する視覚生成,(2)自己批判による視覚生成,(2)初期視覚仮説を生成する視覚生成,2)テキスト推論による欠点の解析,および,それら自身の批判に基づく洗練された出力を生成する視覚生成という2つの相補的メカニズムを通して,アプローチの有効性を実証する。
ビジョン生成ベンチマークの実験では、ベースラインアプローチよりも大幅に改善され、複雑なマルチオブジェクトシナリオの処理において50%(38%から57%)の相対的な改善が達成された。
新たなタンパク質構造を探索するバイオケミストや、空間デザインを反復する建築家、犯罪シーンを再構築する法医学アナリスト、戦略的プレーを想定するバスケットボール選手など、私たちのアプローチは、AIモデルが人間の創造的、分析的、戦略的思考を特徴づける視覚的想像力と反復的洗練に関わり得るようにします。
私たちはhttps://github.com/GAIR-NLP/thinking-with- generated-images.comでオープンソーススイートをリリースします。
関連論文リスト
- Visual Thoughts: A Unified Perspective of Understanding Multimodal Chain-of-Thought [72.93910800095757]
大規模視覚言語モデル(LVLM)の性能と解釈性を改善するマルチモーダル・チェーン・オブ・シント(MCoT)
我々は,MCoTフォーマットによらず,画像情報を推論プロセスに伝達する視覚的思考を取り入れることで,MCoTがLVLMを促進することを示す。
また、視覚的思考の内部的な性質を探求し、視覚的思考が入力画像と深いトランスフォーマー層への推論の間の仲介として機能することを発見した。
論文 参考訳(メタデータ) (2025-05-21T13:29:58Z) - Visual Image Reconstruction from Brain Activity via Latent Representation [0.0]
レビューでは、フィールドの進化は初期の分類のアプローチから洗練された再構築まで遡る。
多様なデータセットの必要性と、人間の知覚的判断に合わせた洗練された評価指標について論じる。
視覚画像再構成は、ニューラルコーディングに関する有望な洞察を提供し、視覚経験の新たな心理的測定を可能にする。
論文 参考訳(メタデータ) (2025-05-13T10:46:52Z) - Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation [14.157948867532832]
本稿では,視覚言語モデル(VLM)における視点認識推論のためのフレームワークについて,メンタルイメージシミュレーションを用いて述べる。
そこで我々は、APC(Abstract Perspective Change)という視点認識推論のためのフレームワークを提案する。
合成および実画像のベンチマーク実験は、様々なVLMと比較して、我々のフレームワークによる視点認識推論の大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-04-24T02:41:34Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。