論文の概要: Thyme: Think Beyond Images
- arxiv url: http://arxiv.org/abs/2508.11630v1
- Date: Fri, 15 Aug 2025 17:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:24.17093
- Title: Thyme: Think Beyond Images
- Title(参考訳): Thyme: イメージを超えて考える
- Authors: Yi-Fan Zhang, Xingyu Lu, Shukang Yin, Chaoyou Fu, Wei Chen, Xiao Hu, Bin Wen, Kaiyu Jiang, Changyi Liu, Tianke Zhang, Haonan Fan, Kaibing Chen, Jiankang Chen, Haojie Ding, Kaiyu Tang, Zhang Zhang, Liang Wang, Fan Yang, Tingting Gao, Guorui Zhou,
- Abstract要約: 我々は、MLLMが、コードを介して多様な画像処理と計算操作を自律的に生成し、実行することにより、画像のアプローチで既存の思考を超越することを可能にする新しいパラダイムであるThymeを紹介した。
我々は、特に高分解能な認識と複雑な推論タスクにおいて、Thymeが顕著で一貫したパフォーマンス向上をもたらすことを示す。
- 参考スコア(独自算出の注目度): 26.604557609131774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Following OpenAI's introduction of the ``thinking with images'' concept, recent efforts have explored stimulating the use of visual information in the reasoning process to enhance model performance in perception and reasoning tasks. However, to the best of our knowledge, no open-source work currently offers a feature set as rich as proprietary models (O3), which can perform diverse image manipulations and simultaneously enhance logical reasoning capabilities through code. In this paper, we make a preliminary attempt in this direction by introducing Thyme (Think Beyond Images), a novel paradigm for enabling MLLMs to transcend existing ``think with images'' approaches by autonomously generating and executing diverse image processing and computational operations via executable code. This approach not only facilitates a rich, on-the-fly set of image manipulations (e.g., cropping, rotation, contrast enhancement) but also allows for mathematical computations, all while maintaining high autonomy in deciding when and how to apply these operations. We activate this capability through a two-stage training strategy: an initial SFT on a curated dataset of 500K samples to teach code generation, followed by a RL phase to refine decision-making. For the RL stage, we manually collect and design high-resolution question-answer pairs to increase the learning difficulty, and we propose GRPO-ATS (Group Relative Policy Optimization with Adaptive Temperature Sampling), an algorithm that applies distinct temperatures to text and code generation to balance reasoning exploration with code execution precision. We conduct extensive experimental analysis and ablation studies. Comprehensive evaluations on nearly 20 benchmarks show that Thyme yields significant and consistent performance gains, particularly in challenging high-resolution perception and complex reasoning tasks.
- Abstract(参考訳): OpenAI の ‘thinking with image' 概念の導入に続いて,近年の取り組みは,知覚・推論タスクにおけるモデル性能を高めるために,推論プロセスにおける視覚情報の利用を促進することを目的としている。
しかしながら、私たちの知る限りでは、現在オープンソースの作業はプロプライエタリなモデル(O3)と同じくらいリッチな機能を提供していません。
そこで本稿では,MLLM が既存の 'think with image'' アプローチを自動で生成・実行し,実行可能コードを介して多様な画像処理と計算操作を実行できる新しいパラダイムである Thyme (Think Beyond Images) を導入することで,この方向の予備的な試みを行う。
このアプローチは、リッチでオンザフライのイメージ操作(例えば、収穫、回転、コントラストの強化)を促進するだけでなく、これらの操作をいつ、どのように適用するかを決める上で高い自律性を維持しながら、数学的計算を可能にする。
コード生成を教えるために500Kサンプルをキュレートしたデータセット上の初期SFTと、意思決定を洗練するためのRLフェーズという2段階のトレーニング戦略を通じて、この機能を起動する。
RLの段階では,学習難易度を高めるために高分解能問合せペアを手作業で収集・設計し,コード実行精度と推論探索のバランスをとるために,テキストとコード生成に異なる温度を適用するアルゴリズムであるGRPO-ATS(Group Relative Policy Optimization with Adaptive Temperature Sampling)を提案する。
我々は広範囲にわたる実験的分析とアブレーション研究を行っている。
20近いベンチマークに対する総合的な評価は、特に高解像度の認識と複雑な推論タスクにおいて、Thymeが顕著で一貫したパフォーマンス向上をもたらすことを示している。
関連論文リスト
- OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Diffusion Model-Based Image Editing: A Survey [46.244266782108234]
様々な画像生成や編集作業のための強力なツールとして,拡散モデルが登場している。
本稿では,画像編集のための拡散モデルを用いた既存手法の概要について述べる。
テキスト誘導画像編集アルゴリズムの性能を更に評価するために,系統的なベンチマークであるEditEvalを提案する。
論文 参考訳(メタデータ) (2024-02-27T14:07:09Z) - A Comprehensive Survey of Image Augmentation Techniques for Deep
Learning [0.0]
ディープラーニングは、大量の画像を必要とするコンピュータビジョンにおいて、まともなパフォーマンスを実現している。
この問題を緩和するために、多くの画像拡張アルゴリズムが効率的かつ効率的な戦略として提案されている。
本稿では,深層学習のための画像拡張に関する包括的調査を行い,新しい情報的分類法を提案する。
論文 参考訳(メタデータ) (2022-05-03T13:45:04Z) - Toward Fast, Flexible, and Robust Low-Light Image Enhancement [87.27326390675155]
我々は、現実の低照度シナリオにおいて、高速でフレキシブルで頑健な鮮明化のための新しい自己校正イルミネーション(SCI)学習フレームワークを開発した。
カスケードパターンの計算負担を考慮すると、各ステージの結果の収束を実現する自己校正モジュールを構築する。
我々は,SCI固有の特性について,操作不感適応性やモデル非関係の一般性を含む包括的探索を行う。
論文 参考訳(メタデータ) (2022-04-21T14:40:32Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。