論文の概要: Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation
- arxiv url: http://arxiv.org/abs/2602.01756v1
- Date: Mon, 02 Feb 2026 07:42:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.9853
- Title: Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation
- Title(参考訳): Mind-Brush: エージェント認知検索と推論を画像生成に統合する
- Authors: Jun He, Junyan Ye, Zilong Huang, Dongzhi Jiang, Chenjue Zhang, Leqi Zhu, Renrui Zhang, Xiang Zhang, Weijia Li,
- Abstract要約: 我々は、生成を動的で知識駆動のワークフローに変換する統合エージェントフレームワークであるMind-Brushを紹介します。
人間のような「思考-研究-創造」パラダイムをシミュレートして、Mind-Brushは、分配の概念を根絶するために、マルチモーダルなエビデンスを積極的に回収する。
大規模な実験により、Mind-Brushは統一モデルの能力を著しく向上させることが示された。
- 参考スコア(独自算出の注目度): 47.97278965762397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While text-to-image generation has achieved unprecedented fidelity, the vast majority of existing models function fundamentally as static text-to-pixel decoders. Consequently, they often fail to grasp implicit user intentions. Although emerging unified understanding-generation models have improved intent comprehension, they still struggle to accomplish tasks involving complex knowledge reasoning within a single model. Moreover, constrained by static internal priors, these models remain unable to adapt to the evolving dynamics of the real world. To bridge these gaps, we introduce Mind-Brush, a unified agentic framework that transforms generation into a dynamic, knowledge-driven workflow. Simulating a human-like 'think-research-create' paradigm, Mind-Brush actively retrieves multimodal evidence to ground out-of-distribution concepts and employs reasoning tools to resolve implicit visual constraints. To rigorously evaluate these capabilities, we propose Mind-Bench, a comprehensive benchmark comprising 500 distinct samples spanning real-time news, emerging concepts, and domains such as mathematical and Geo-Reasoning. Extensive experiments demonstrate that Mind-Brush significantly enhances the capabilities of unified models, realizing a zero-to-one capability leap for the Qwen-Image baseline on Mind-Bench, while achieving superior results on established benchmarks like WISE and RISE.
- Abstract(参考訳): テキスト・ツー・イメージ生成は前例のない忠実さを達成したが、既存のモデルの大部分は基本的に静的なテキスト・ツー・ピクセル・デコーダとして機能している。
そのため、暗黙のユーザーの意図を把握できないことが多い。
新たな統合理解世代モデルは、意図的理解を改善したが、単一のモデル内で複雑な知識推論を含むタスクを達成するのに苦戦している。
さらに、静的な内部事前の制約により、これらのモデルは現実世界の進化するダイナミクスに適応できないままである。
これらのギャップを埋めるために、我々はMind-Brushを導入します。Mind-Brushは、生成を動的で知識駆動のワークフローに変換する統合エージェントフレームワークです。
人間のような「思考-研究-創造」パラダイムをシミュレートし、Mind-Brushは、分布概念を根絶するためにマルチモーダルエビデンスを積極的に回収し、暗黙の視覚的制約を解決するために推論ツールを使用する。
これらの機能を厳格に評価するために,リアルタイムニュース,新しい概念,数学的・地理推論などの領域にまたがる500の異なるサンプルからなる総合的なベンチマークであるMind-Benchを提案する。
大規模な実験により、Mind-Brushは統合モデルの能力を大幅に向上し、Mind-Bench上のQwen-Imageベースラインのゼロ・ツー・ワンの能力飛躍を実現し、WISEやRISEのような既存のベンチマークで優れた結果を得ることができた。
関連論文リスト
- Reasoning Models Generate Societies of Thought [9.112083442162671]
マルチエージェントのような相互作用をシミュレートすることで、推論が強化されることが示される。
DeepSeek-R1 や QwQ-32B のような推論モデルは、命令調整モデルよりもはるかに視点の多様性を示す。
論文 参考訳(メタデータ) (2026-01-15T19:52:33Z) - Guiding the Inner Eye: A Framework for Hierarchical and Flexible Visual Grounded Reasoning [6.800544911407401]
GRiP(Guided Reasoning and Perception)は、視覚的根拠に基づく推論のための新しいトレーニングフレームワークである。
GRiPは、モデルの知覚的焦点と論理的経路を明確に導くことによって、堅牢で柔軟な視覚的基盤推論を育む。
GRiPは、非常に挑戦的なTreeBenchとV* Benchで、オープンソースモデルの最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-11-27T07:18:25Z) - Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark [69.8473923357969]
統一マルチモーダルモデルは、視覚的理解と生成を共同で行うことを目的としているが、現在のベンチマークでは、その真の統合を検査することはめったにない。
提案するUni-MMMUは、8つの推論中心領域にまたがる生成と理解の双方向の相乗効果を拡大する総合的なベンチマークである。
論文 参考訳(メタデータ) (2025-10-15T17:10:35Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - Thinking with Generated Images [30.28526622443551]
我々は,大規模マルチモーダルモデル(LMM)が視覚的推論にどのように関与するかを変換する,新しいパラダイムであるThinking with Generated Imagesを紹介する。
我々のアプローチは、AIモデルが人間の創造的、分析的、戦略的思考を特徴づける視覚的想像力や反復的な洗練に関わり得ることを可能にする。
論文 参考訳(メタデータ) (2025-05-28T16:12:45Z) - Enhancing Zero-Shot Image Recognition in Vision-Language Models through Human-like Concept Guidance [41.6755826072905]
ゼロショット画像認識タスクでは、人間は目に見えないカテゴリを分類する際、顕著な柔軟性を示す。
既存の視覚言語モデルは、しばしば準最適プロンプトエンジニアリングのため、現実世界のアプリケーションでは性能が劣る。
これらの問題に対処するために,概念誘導型人間ライクなベイズ推論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-20T06:20:13Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは 信頼性 公正性 誤用の可能性について 批判的な議論を巻き起こしました
埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。
提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。