論文の概要: Reasoning with Autoregressive-Diffusion Collaborative Thoughts
- arxiv url: http://arxiv.org/abs/2602.01608v1
- Date: Mon, 02 Feb 2026 03:54:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.890696
- Title: Reasoning with Autoregressive-Diffusion Collaborative Thoughts
- Title(参考訳): 自己回帰拡散協調思考による推論
- Authors: Mu Yuan, Liekang Zeng, Guoliang Xing, Lan Zhang, Yunhao Liu,
- Abstract要約: 我々は,自己回帰モデルと拡散モデルによる推論と共同生成を可能にする統合フレームワークであるCollaborative Thoughtsを紹介する。
協調思考では、自己回帰モデルは構造化計画と制約管理を行い、拡散モデルはこれらの制約を中間的な視覚的思考としてインスタンス化する。
このフィードバックは、その後の計画および生成ステップを反復的に洗練し、モダリティ間のエラー伝搬を緩和するために使用される。
- 参考スコア(独自算出の注目度): 17.514099735746022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive and diffusion models represent two complementary generative paradigms. Autoregressive models excel at sequential planning and constraint composition, yet struggle with tasks that require explicit spatial or physical grounding. Diffusion models, in contrast, capture rich spatial structure through high-dimensional generation, but lack the stepwise logical control needed to satisfy complex, multi-stage constraints or to reliably identify and correct errors. We introduce Collaborative Thoughts, a unified collaborative framework that enables autoregressive and diffusion models to reason and generate jointly through a closed-loop interaction. In Collaborative Thoughts, autoregressive models perform structured planning and constraint management, diffusion models instantiate these constraints as intermediate visual thoughts, and a vision-based critic module evaluates whether the visual thoughts satisfy the intended structural and physical requirements. This feedback is then used to iteratively refine subsequent planning and generation steps, mitigating error propagation across modalities. Importantly, Collaborative Thoughts uses the same collaborative loop regardless of whether the task is autoregressive question answering or diffusion-based visual generation. Through representative examples, we illustrate how Collaborative Thoughts can improve the reliability of spatial reasoning and the controllability of generation.
- Abstract(参考訳): 自己回帰モデルと拡散モデルは2つの相補的生成パラダイムを表す。
自己回帰モデルは、逐次計画と制約構成において優れているが、明示的な空間的または物理的接地を必要とするタスクに苦労する。
対照的に拡散モデルは高次元生成によってリッチな空間構造を捉えるが、複雑な多段階制約を満たすための段階的な論理的制御が欠如している。
協調的思考(Collaborative Thoughts)は,自己回帰モデルと拡散モデルによる閉ループ相互作用の推論と共同生成を可能にする統合的な協調的思考フレームワークである。
協調思考では、自己回帰モデルは構造化計画と制約管理を行い、拡散モデルはこれらの制約を中間的な視覚的思考としてインスタンス化し、視覚に基づく批判モジュールは視覚的思考が意図された構造的および物理的要求を満たすかどうかを評価する。
このフィードバックは、その後の計画および生成ステップを反復的に洗練し、モダリティ間のエラー伝搬を緩和するために使用される。
重要なこととして、協調的思考は、タスクが自己回帰的質問応答か拡散に基づく視覚生成かにかかわらず、同じ協調ループを使用する。
代表的な例として、協調的思考が空間的推論の信頼性と生成の制御性を改善する方法について述べる。
関連論文リスト
- Model-First Reasoning LLM Agents: Reducing Hallucinations through Explicit Problem Modeling [3.537921035534423]
大規模言語モデル(LLM)は複雑な多段階計画タスクに悩まされることが多い。
Chain-of-ThoughtやReActといった既存の戦略は、暗黙的な状態追跡に依存しており、明示的な問題表現がない。
モデル第一推論(MFR: Model-First Reasoning)は、LLMが最初に問題の明示的なモデルを構築した2相パラダイムである。
論文 参考訳(メタデータ) (2025-12-16T15:07:36Z) - An Integrated Fusion Framework for Ensemble Learning Leveraging Gradient Boosting and Fuzzy Rule-Based Models [59.13182819190547]
ファジィ規則に基づくモデルは解釈可能性に優れ、様々な分野に広く応用されている。
複雑な設計仕様や大規模データセットのスケーラビリティといった課題に直面している。
本稿では,モデル性能と解釈可能性を高めるために,両パラダイムの強みを融合した統合統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-11T10:28:23Z) - Modular Delta Merging with Orthogonal Constraints: A Scalable Framework for Continual and Reversible Model Composition [0.0]
既存のモデルマージと継続的学習へのアプローチは、しばしばタスクの干渉、破滅的な忘れ込み、あるいは可逆性の欠如に悩まされる。
本稿では, 拡張性, 干渉フリー, 微調整モデルの構成が可能な新しいフレームワークである Orthogonal Constraints (MDM-OC) を用いた Modular Delta Merging を提案する。
論文 参考訳(メタデータ) (2025-07-28T17:08:49Z) - Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [57.19302613163439]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。
本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。
残る技術的課題や倫理的考察も分析する。
論文 参考訳(メタデータ) (2025-06-05T05:42:27Z) - Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks [50.75902473813379]
本研究は、そのようなモデルの一般化能力における命令と入力の役割を体系的に検証する包括的評価フレームワークを導入する。
提案フレームワークは,極度の命令摂動に対するマルチモーダルモデルのレジリエンスと,観測的変化に対する脆弱性を明らかにする。
論文 参考訳(メタデータ) (2024-07-04T14:36:49Z) - Relational Concept Bottleneck Models [13.311396882130033]
概念ボトルネックモデル(CBM)は問題を解決するために設計されていない。
R-CBMは標準CBMとリレーショナルGNNの両方を表現できる。
特に,R-CBMが概念に基づく説明の生成を支援することを示す。
論文 参考訳(メタデータ) (2023-08-23T08:25:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。