論文の概要: UniT: Unified Multimodal Chain-of-Thought Test-time Scaling
- arxiv url: http://arxiv.org/abs/2602.12279v1
- Date: Thu, 12 Feb 2026 18:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:26.002007
- Title: UniT: Unified Multimodal Chain-of-Thought Test-time Scaling
- Title(参考訳): Unified Multimodal Chain-of-Thought Test-Time Scaling
- Authors: Leon Liangyu Chen, Haoyu Ma, Zhipeng Fan, Ziqi Huang, Animesh Sinha, Xiaoliang Dai, Jialiang Wang, Zecheng He, Jianwei Yang, Chunyuan Li, Junzhe Sun, Chu Wang, Serena Yeung-Levy, Felix Juefei-Xu,
- Abstract要約: 統一モデルは単一のアーキテクチャ内でマルチモーダル理解と生成の両方を扱うことができるが、通常は出力を反復的に書き換えることなく単一のパスで操作する。
マルチモーダルなテストタイムスケーリングのためのフレームワークであるUniTを導入し、単一の統一モデルで複数のラウンドをまたいだ推論、検証、精査を可能にします。
- 参考スコア(独自算出の注目度): 85.590774707406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified models can handle both multimodal understanding and generation within a single architecture, yet they typically operate in a single pass without iteratively refining their outputs. Many multimodal tasks, especially those involving complex spatial compositions, multiple interacting objects, or evolving instructions, require decomposing instructions, verifying intermediate results, and making iterative corrections. While test-time scaling (TTS) has demonstrated that allocating additional inference compute for iterative reasoning substantially improves language model performance, extending this paradigm to unified multimodal models remains an open challenge. We introduce UniT, a framework for multimodal chain-of-thought test-time scaling that enables a single unified model to reason, verify, and refine across multiple rounds. UniT combines agentic data synthesis, unified model training, and flexible test-time inference to elicit cognitive behaviors including verification, subgoal decomposition, and content memory. Our key findings are: (1) unified models trained on short reasoning trajectories generalize to longer inference chains at test time; (2) sequential chain-of-thought reasoning provides a more scalable and compute-efficient TTS strategy than parallel sampling; (3) training on generation and editing trajectories improves out-of-distribution visual reasoning. These results establish multimodal test-time scaling as an effective paradigm for advancing both generation and understanding in unified models.
- Abstract(参考訳): 統一モデルは単一のアーキテクチャ内でマルチモーダル理解と生成の両方を扱うことができるが、通常は出力を反復的に書き換えることなく単一のパスで操作する。
多くのマルチモーダルタスク、特に複雑な空間構成、複数の相互作用するオブジェクト、または進化する命令を含むタスクは、インストラクションの分解、中間結果の検証、反復的な修正を必要とする。
テスト時間スケーリング(TTS)は、反復推論のために追加の推論計算を割り当てることによって言語モデルの性能が大幅に向上することを示したが、このパラダイムをマルチモーダルモデルに拡張することはオープンな課題である。
マルチモーダルチェーン・オブ・シークレットなテストタイムスケーリングのためのフレームワークであるUniTを導入し、単一の統一モデルで複数のラウンドをまたいだ推論、検証、精査を可能にする。
UniTは、エージェントデータ合成、統一モデルトレーニング、フレキシブルなテストタイム推論を組み合わせることで、検証、サブゴール分解、コンテンツメモリを含む認知的振る舞いを誘発する。
その結果,(1)短い推論軌跡で訓練された統一モデルは,テスト時に長い推論連鎖に一般化する;(2)逐次連鎖推論は並列サンプリングよりもスケーラブルで計算効率のよいTS戦略を提供する;(3)トラジェクトリの生成と編集の訓練は,アウトオブディストリビューションの視覚推論を改善する。
これらの結果から,統合モデルの生成と理解の促進に有効なパラダイムとして,マルチモーダルテストタイムスケーリングが確立された。
関連論文リスト
- Dual-Phase LLM Reasoning: Self-Evolved Mathematical Frameworks [48.105258051884384]
本稿では,モデルの自己補正能力を高めるための2段階トレーニングフレームワークを提案する。
最初の段階では、マルチターン対話戦略がモデルをガイドし、長いチェーン・オブ・シント(CoT)データを生成する。
第2段階では、データの分散を動的に最適化する難易度の高い拒絶サンプリング機構を採用している。
論文 参考訳(メタデータ) (2026-01-09T08:19:11Z) - Wave-Particle (Continuous-Discrete) Dualistic Visual Tokenization for Unified Understanding and Generation [20.2075487635278]
Continuous tokenizer (CT)は、複数の理解モジュールと生成モジュールをブリッジすることで、強力なパフォーマンスを実現する。
離散トークン化器(DT)は、各画像をプリミティブに定量化することで概念的にエレガントなアイデアを提供する。
我々はCDD-VT(Continuous-Discrete Dualistic Visual Tokenizer)を提案する。
論文 参考訳(メタデータ) (2025-11-03T13:58:32Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - A Deep Learning Framework for Sequence Mining with Bidirectional LSTM and Multi-Scale Attention [11.999319439383918]
本稿では、複雑なシーケンスデータにおける潜在パターンのマイニングとコンテキスト依存のモデル化の課題に対処する。
Bidirectional Long Short-Term Memory (BiLSTM) とマルチスケールアテンション機構を組み合わせたシーケンスパターンマイニングアルゴリズムを提案する。
BiLSTMはシーケンスの前方および後方の依存関係をキャプチャし、グローバルなコンテキスト構造を知覚するモデルの能力を高める。
論文 参考訳(メタデータ) (2025-04-21T16:53:02Z) - SDRT: Enhance Vision-Language Models by Self-Distillation with Diverse Reasoning Traces [11.462550020102935]
視覚言語モデルのための新しい自己蒸留フレームワークを提案する。
我々は、多様なコンテキスト内質問を生成するために、視覚的推論タスクに適したプロンプトライブラリを採用する。
次に,2段階の推論手法を用いて推論誘導応答を導出する。
これらの反応は自己蒸留に使用され、モデルが推論プロセスの内部化を可能にする。
論文 参考訳(メタデータ) (2025-03-03T17:24:42Z) - DisenTS: Disentangled Channel Evolving Pattern Modeling for Multivariate Time Series Forecasting [43.071713191702486]
DisenTSは、一般的な時系列予測において、不整合チャネル進化パターンをモデル化するための調整されたフレームワークである。
本稿では,予測器の状態と入力系列の特性の両方に応じて適応的にルーティング信号を生成する,新しいフォアキャスタ・アウェアゲート(FAG)モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-30T12:46:14Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。