論文の概要: Thinking with Drafting: Optical Decompression via Logical Reconstruction
- arxiv url: http://arxiv.org/abs/2602.11731v1
- Date: Thu, 12 Feb 2026 08:54:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.735282
- Title: Thinking with Drafting: Optical Decompression via Logical Reconstruction
- Title(参考訳): 図面による思考:論理的再構成による光学的非圧縮
- Authors: Jingxuan Wei, Honghao He, Caijun Jia, Siyuan Li, Zheng Sun, Yuhang Xu, Yuanyuan Lin, Linzhuang Sun, Yuchen Wu, Bihui Yu, Xiangxiang Zhang, Cheng Tan,
- Abstract要約: 本稿では、圧縮された視覚トークンから潜在論理構造を再構築するプロセスとしてThinking with Drafting(TwD)を提案する。
TwDはモデルにメンタルモデルを実行可能なコードにドラフトさせ、自己検証のための決定論的視覚的証明を描画させる。
我々の研究は、視覚生成が創造的な出力としてではなく論理的検証として機能するクローズドループシステムを確立する。
- 参考スコア(独自算出の注目度): 19.018138128118775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing multimodal large language models have achieved high-fidelity visual perception and exploratory visual generation. However, a precision paradox persists in complex reasoning tasks: optical perception systems transcribe symbols without capturing logical topology, while pixel-based generative models produce visual artifacts lacking mathematical exactness. To bridge this gap, we propose that reasoning over visual inputs be reconceptualized as optical decompression-the process of reconstructing latent logical structures from compressed visual tokens. Guided by the axiom that Parsing is Reasoning, we introduce Thinking with Drafting (TwD), which utilizes a minimalist Domain-Specific Language (DSL) as a grounding intermediate representation. Unlike standard approaches that hallucinate answers directly, TwD forces the model to draft its mental model into executable code, rendering deterministic visual proofs for self-verification. To validate this, we present VisAlg, a visual algebra benchmark. Experiments demonstrate that TwD serve as a superior cognitive scaffold. Our work establishes a closed-loop system where visual generation acts not as a creative output but as a logical verifier, offering a generalizable path for visual reasoning.
- Abstract(参考訳): 既存のマルチモーダルな大言語モデルは、高忠実な視覚知覚と探索的な視覚生成を実現している。
光学知覚系は論理トポロジを捉えずに記号を転写し、ピクセルベースの生成モデルは数学的正確性に欠けた視覚的アーティファクトを生成する。
このギャップを埋めるため、圧縮された視覚トークンから潜在論理構造を再構成する過程において、視覚入力の推論を光学的減圧として再認識することを提案する。
パーシングが推論であるという公理に導かれて、最小主義のドメイン特化言語(DSL)を基礎となる中間表現として利用するThinking with Drafting(TwD)を紹介します。
幻覚を直接答える標準的なアプローチとは異なり、TwDはモデルにメンタルモデルを実行可能なコードにドラフトさせ、自己検証のための決定論的視覚的証明を描画させる。
これを検証するために視覚代数ベンチマークVisAlgを提案する。
実験では、TwDが優れた認知足場として機能することが示されている。
我々の研究は、視覚生成が創造的な出力ではなく論理的検証として機能し、視覚的推論のための一般化可能な経路を提供するクローズドループシステムを確立する。
関連論文リスト
- Multimodal Latent Reasoning via Hierarchical Visual Cues Injection [16.779425236020433]
この研究は、頑健な推論は潜在空間内で進化し、シームレスにマルチモーダル信号を統合することを示唆している。
表面的な文章の合理性に依存することなく、意図的な「スロー思考」を具現化する新しい枠組みを提案する。
視覚知識を取り入れたテストタイムスケーリングは有効であり,階層的な情報の統合は複雑な場面に対するモデルの理解を著しく向上させることを示す。
論文 参考訳(メタデータ) (2026-02-05T06:31:12Z) - Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic Reasoning [56.24016465596292]
視覚的メタファーは、抽象概念をインパクトのある視覚的レトリックに変換するために、クロスドメインなセマンティックフュージョンを用いて、人間の創造性の高階形式を構成する。
本稿では,参照画像から「創造的本質」を自律的に分離し,その抽象論理をユーザ特定対象に再物質化する,視覚メタファー伝達(VMT)の課題を紹介する。
提案手法は, メタファーの整合性, アナロジーの適切性, 視覚的創造性においてSOTAのベースラインを著しく上回り, 広告・メディアにおける高度にインパクトのある創造的アプリケーションを自動化するための道を開いた。
論文 参考訳(メタデータ) (2026-02-01T17:01:36Z) - From Illusion to Intention: Visual Rationale Learning for Vision-Language Reasoning [19.84653798433995]
本稿では,視覚的合理性自体のトレーニングを基盤とした,エンドツーエンドのパラダイムであるVisual Rationale Learning (ViRL)を提案する。
ViRLは,(1)プロセス・スーパービジョンと,(2)ステップレベルの報酬形成による客観的アライメント,(3)きめ細かなクレジット・アサインメントを統合して,正しく,冗長で,誤動作を区別する。
この研究は、透明で検証可能で信頼できる視覚言語モデルを構築するためのタスクに依存しないプロセス基底パラダイムとして、視覚的合理化を確立している。
論文 参考訳(メタデータ) (2025-11-28T09:52:56Z) - RECODE: Reasoning Through Code Generation for Visual Question Answering [68.86938437188964]
我々は、検証可能な視覚的推論のための新しいモダリティとして、視覚を実行可能コードにリバースエンジニアリングするプロセスであるデレンダリングを活用することを提案する。
我々の研究は、実行可能コードにおける視覚的認識の基盤が、より正確で検証可能なマルチモーダル推論への新たな道を提供することを示した。
論文 参考訳(メタデータ) (2025-10-15T17:05:37Z) - Seeing is Not Reasoning: MVPBench for Graph-based Evaluation of Multi-path Visual Physical CoT [24.085953089267772]
複雑な場面において,OpenAI o3 と GPT-4o が基本的な物理法則,空間的相互作用,因果的影響を把握できないことを示す。
我々は、視覚連鎖(CoT)レンズによる視覚的身体的推論を厳格に評価するベンチマークであるMVPBenchを紹介した。
最先端のMLLMでさえ、物理領域における視覚的推論精度の低下と画像テキストアライメントの弱さを示す。
論文 参考訳(メタデータ) (2025-05-30T03:48:59Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z) - PTR: A Benchmark for Part-based Conceptual, Relational, and Physical
Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。
PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。
このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文 参考訳(メタデータ) (2021-12-09T18:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。