論文の概要: TACIT: Transformation-Aware Capturing of Implicit Thought
- arxiv url: http://arxiv.org/abs/2602.07061v1
- Date: Thu, 05 Feb 2026 11:14:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.413164
- Title: TACIT: Transformation-Aware Capturing of Implicit Thought
- Title(参考訳): TACIT: インシシット思考の変換を意識したキャプチャ
- Authors: Daniel Nobrega,
- Abstract要約: 視覚的推論を解釈するための拡散型変換器TACITを提案する。
言語ベースの推論システムとは異なり、TACITは修正フローを使用して完全にピクセル空間で動作する。
迷路解法では,未解決迷路の画像を解に変換するモデルを学習する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present TACIT (Transformation-Aware Capturing of Implicit Thought), a diffusion-based transformer for interpretable visual reasoning. Unlike language-based reasoning systems, TACIT operates entirely in pixel space using rectified flow, enabling direct visualization of the reasoning process at each inference step. We demonstrate the approach on maze-solving, where the model learns to transform images of unsolved mazes into solutions. Key results on 1 million synthetic maze pairs include: - 192x reduction in training loss over 100 epochs - 22.7x improvement in L2 distance to ground truth - Only 10 Euler steps required (vs. 100-1000 for typical diffusion models) Quantitative analysis reveals a striking phase transition phenomenon: the solution remains invisible for 68% of the transformation (zero recall), then emerges abruptly at t=0.70 within just 2% of the process. Most remarkably, 100% of samples exhibit simultaneous emergence across all spatial regions, ruling out sequential path construction and providing evidence for holistic rather than algorithmic reasoning. This "eureka moment" pattern -- long incubation followed by sudden crystallization -- parallels insight phenomena in human cognition. The pixel-space design with noise-free flow matching provides a foundation for understanding how neural networks develop implicit reasoning strategies that operate below and before language.
- Abstract(参考訳): 本稿では,解釈可能な視覚推論のための拡散型変換器TACIT(Transformation-Aware Capturing of Implicit Thought)を提案する。
言語ベースの推論システムとは異なり、TACITは修正フローを使用して完全にピクセル空間で動作し、各推論ステップでの推論プロセスの直接可視化を可能にする。
迷路解法では,未解決迷路の画像を解に変換するモデルを学習する。
100万個の合成迷路のペアの主な結果は以下の通りである: - 100エポック以上のトレーニング損失の192倍の減少 - L2から接地真実への22.7倍の改善 必要となる10個のオイラーステップ(vs.100-1000の典型的な拡散モデル) 定量的解析により、顕著な相転移現象が示される: 解は変換の68%で目に見えないままであり(ゼロリコール)、その過程のわずか2%で突然t=0.70で現れる。
最も顕著なことに、100%のサンプルは全ての空間領域に同時に出現し、逐次的な経路構築を除外し、アルゴリズム的推論よりも全体論的な証拠を提供する。
この「ユーレカモーメント」パターンは、長いインキュベーションと突然の結晶化に続くもので、人間の認知における洞察現象と平行している。
ノイズフリーなフローマッチングを備えたピクセル空間設計は、ニューラルネットワークが言語の下と前で動作する暗黙の推論戦略をどのように発展させるかを理解する基盤となる。
関連論文リスト
- LatentINDIGO: An INN-Guided Latent Diffusion Algorithm for Image Restoration [19.74964267336191]
本研究では,ウェーブレットにインスパイアされたインバータブルニューラルネットワーク(INN)を導入し,フォワード変換により劣化をシミュレートし,逆変換により失われた詳細を再構成する。
提案アルゴリズムは, 合成および実世界の低画質画像に対して, 最先端の性能を達成し, 任意の出力サイズに容易に適応できる。
論文 参考訳(メタデータ) (2025-05-19T10:17:16Z) - Physics-guided and fabrication-aware inverse design of photonic devices using diffusion models [43.51581973358462]
本稿では,拡散モデルのサンプリングプロセスに随伴勾配感度を統合する物理誘導フレームワークであるAdjointDiffusionを提案する。
提案手法は, 効率と製造性の両方において, 最先端の非線形勾配法より一貫して優れる。
論文 参考訳(メタデータ) (2025-04-23T19:54:33Z) - Solving Inverse Problems using Diffusion with Iterative Colored Renoising [13.203844370996967]
既存の手法による近似は,特に逆過程の早い段階では,比較的貧弱であることを示す。
そこで本研究では,拡散段階毎に数回,反復的に再推定し,推定を「ノイズ」する手法を提案する。
この反復的アプローチは、我々がFast Iterative Renoising (FIRE)と呼ぶもので、事前に訓練された拡散モデルが常に白いノイズを見ることができるように、色付きノイズを注入する。
論文 参考訳(メタデータ) (2025-01-29T08:20:05Z) - Solving Video Inverse Problems Using Image Diffusion Models [58.464465016269614]
本稿では,画像拡散モデルのみを活用する革新的なビデオ逆解法を提案する。
本手法は,映像の時間次元をバッチ次元画像拡散モデルとして扱う。
また、バッチ間の一貫性を促進するバッチ一貫性サンプリング戦略も導入しています。
論文 参考訳(メタデータ) (2024-09-04T09:48:27Z) - Simultaneous Image-to-Zero and Zero-to-Noise: Diffusion Models with Analytical Image Attenuation [53.04220377034574]
高品質(未条件)な画像生成のための前方拡散プロセスに解析的画像減衰プロセスを導入することを提案する。
本手法は,フォワード画像からノイズへのマッピングを,テクスチメジからゼロへのマッピングとテクスティケロ・ツー・ノイズマッピングの同時マッピングとして表現する。
我々は,CIFAR-10やCelebA-HQ-256などの無条件画像生成や,超解像,サリエンシ検出,エッジ検出,画像インペインティングなどの画像条件下での下流処理について実験を行った。
論文 参考訳(メタデータ) (2023-06-23T18:08:00Z) - INDigo: An INN-Guided Probabilistic Diffusion Algorithm for Inverse
Problems [31.693710075183844]
一般逆問題に対する非可逆ニューラルネットワーク(INN)と拡散モデルを組み合わせた手法を提案する。
具体的には、任意の劣化過程をシミュレートするためにINNの前方処理を訓練し、逆処理を再構成プロセスとして使用する。
本アルゴリズムは, 劣化過程で失われる詳細を効果的に推定し, 劣化モデルのクローズドフォーム表現を知る必要により, もはや制限されない。
論文 参考訳(メタデータ) (2023-06-05T15:14:47Z) - A Variational Perspective on Solving Inverse Problems with Diffusion
Models [101.831766524264]
逆タスクは、データ上の後続分布を推測するものとして定式化することができる。
しかし、拡散過程の非線形的かつ反復的な性質が後部を引き付けるため、拡散モデルではこれは困難である。
そこで我々は,真の後続分布を近似する設計手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T23:00:47Z) - Dimensionality-Varying Diffusion Process [52.52681373641533]
拡散モデルは、信号破壊プロセスを逆転して新しいデータを生成することを学習する。
信号分解による前方拡散過程の理論的一般化を行う。
FFHQで訓練された拡散モデルのFIDを,52.40から10.46までの1024Times1024$解像度で改善する。
論文 参考訳(メタデータ) (2022-11-29T09:05:55Z) - Learning Discriminative Shrinkage Deep Networks for Image Deconvolution [122.79108159874426]
本稿では,これらの用語を暗黙的にモデル化する識別的縮小関数を学習することで,効果的に非盲検デコンボリューション手法を提案する。
実験結果から,提案手法は最先端の手法に対して,効率と精度の点で好適に動作することがわかった。
論文 参考訳(メタデータ) (2021-11-27T12:12:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。