論文の概要: Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision
- arxiv url: http://arxiv.org/abs/2508.05606v1
- Date: Thu, 07 Aug 2025 17:45:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.974787
- Title: Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision
- Title(参考訳): Uni-cot: テキストとビジョンにまたがる統一型チェーンを目指して
- Authors: Luozheng Qin, Jia Gong, Yuqing Sun, Tianjiao Li, Mengping Yang, Xiaomeng Yang, Chao Qu, Zhiyu Tan, Hao Li,
- Abstract要約: 大規模言語モデル(LLM)を強化するために,チェーン・オブ・ソート(CoT)推論が広く採用されている。
We propose Uni-CoT, a Unified Chain-of-Thought framework that allow coherent and grounded multimodal reasoning。
- 参考スコア(独自算出の注目度): 20.953299102154215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) reasoning has been widely adopted to enhance Large Language Models (LLMs) by decomposing complex tasks into simpler, sequential subtasks. However, extending CoT to vision-language reasoning tasks remains challenging, as it often requires interpreting transitions of visual states to support reasoning. Existing methods often struggle with this due to limited capacity of modeling visual state transitions or incoherent visual trajectories caused by fragmented architectures. To overcome these limitations, we propose Uni-CoT, a Unified Chain-of-Thought framework that enables coherent and grounded multimodal reasoning within a single unified model. The key idea is to leverage a model capable of both image understanding and generation to reason over visual content and model evolving visual states. However, empowering a unified model to achieve that is non-trivial, given the high computational cost and the burden of training. To address this, Uni-CoT introduces a novel two-level reasoning paradigm: A Macro-Level CoT for high-level task planning and A Micro-Level CoT for subtask execution. This design significantly reduces the computational overhead. Furthermore, we introduce a structured training paradigm that combines interleaved image-text supervision for macro-level CoT with multi-task objectives for micro-level CoT. Together, these innovations allow Uni-CoT to perform scalable and coherent multi-modal reasoning. Furthermore, thanks to our design, all experiments can be efficiently completed using only 8 A100 GPUs with 80GB VRAM each. Experimental results on reasoning-driven image generation benchmark (WISE) and editing benchmarks (RISE and KRIS) indicates that Uni-CoT demonstrates SOTA performance and strong generalization, establishing Uni-CoT as a promising solution for multi-modal reasoning. Project Page and Code: https://sais-fuxi.github.io/projects/uni-cot/
- Abstract(参考訳): CoT(Chain-of-Thought)推論は、複雑なタスクを単純でシーケンシャルなサブタスクに分解することで、LLM(Large Language Models)を強化するために広く採用されている。
しかしながら、CoTを視覚言語推論タスクに拡張することは、多くの場合、推論をサポートするために視覚状態の遷移を解釈する必要があるため、依然として困難である。
既存の手法では、視覚状態遷移のモデリング能力の限界や、断片化されたアーキテクチャによって引き起こされた不整合な視覚的軌跡のために、このような問題に悩まされることが多い。
このような制約を克服するために,単一統一モデル内でのコヒーレントかつ基底的マルチモーダル推論を可能にするUni-CoTを提案する。
キーとなる考え方は、画像の理解と生成の両方が可能なモデルを活用して、視覚的コンテンツを推論し、進化する視覚状態をモデル化することである。
しかし、高い計算コストと訓練の負担を考えれば、統一されたモデルにそれを達成させるのは簡単ではない。
これに対処するため、Uni-CoTは、ハイレベルタスク計画のためのマクロレベルCoTとサブタスク実行のためのマイクロレベルCoTという、新しい2レベル推論パラダイムを導入している。
この設計は計算オーバーヘッドを大幅に削減する。
さらに,マクロレベルのCoTに対するインターリーブド画像テキスト管理とマイクロレベルのCoTに対するマルチタスク目的を組み合わせた構造化トレーニングパラダイムを導入する。
これらのイノベーションにより、UniCoTはスケーラブルで一貫性のあるマルチモーダル推論を行うことができる。
さらに、我々の設計により、80GBのVRAMを持つ8つのA100 GPUで、全ての実験を効率的に完了することができる。
推論駆動画像生成ベンチマーク(WISE)と編集ベンチマーク(RISEとKRIS)の実験結果は、Uni-CoTがSOTA性能と強力な一般化を示し、マルチモーダル推論のための有望なソリューションとしてUni-CoTを確立していることを示している。
プロジェクトページとコード:https://sais-fuxi.github.io/projects/uni-cot/
関連論文リスト
- MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO [87.52631406241456]
近年のテキスト・ツー・イメージシステムは、マルチモーダル入力や複雑な推論タスクの処理において制限に直面している。
我々は、強化学習による推論生成を取り入れ、これらの課題に対処する統合マルチモーダルな大規模言語モデルであるMind Omniを紹介する。
論文 参考訳(メタデータ) (2025-05-19T12:17:04Z) - Supervised Chain of Thought [5.389461633686935]
Chain of Thought (CoT)は複雑な推論タスクを解決するための有望なアプローチを提供する。
ワンプロンプト・フォー・オールアプローチは、正しい推論ステップを生成するためにモデルに重大な課題をもたらす。
タスク固有の監督が、プロンプト空間を正確にナビゲートし、最適な性能を達成するためにいかに重要であるかを示す。
論文 参考訳(メタデータ) (2024-10-18T06:25:27Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。
GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文 参考訳(メタデータ) (2024-03-14T13:47:41Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。