論文の概要: OneThinker: All-in-one Reasoning Model for Image and Video
- arxiv url: http://arxiv.org/abs/2512.03043v1
- Date: Tue, 02 Dec 2025 18:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:46.025467
- Title: OneThinker: All-in-one Reasoning Model for Image and Video
- Title(参考訳): OneThinker:画像とビデオのオールインワン推論モデル
- Authors: Kaituo Feng, Manyuan Zhang, Hongyu Li, Kaixuan Fan, Shuang Chen, Yilei Jiang, Dian Zheng, Peiwen Sun, Yiyuan Zhang, Haoze Sun, Yan Feng, Peng Pei, Xunliang Cai, Xiangyu Yue,
- Abstract要約: 多様な視覚的タスクにおける画像と映像の理解を統一するオールインワン推論モデルであるOneThinkerを提案する。
実験によると、OneThinkerは10の基本的な視覚的理解タスクに対して、31のベンチマークで強力なパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 45.8205286430071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has recently achieved remarkable success in eliciting visual reasoning within Multimodal Large Language Models (MLLMs). However, existing approaches typically train separate models for different tasks and treat image and video reasoning as disjoint domains. This results in limited scalability toward a multimodal reasoning generalist, which restricts practical versatility and hinders potential knowledge sharing across tasks and modalities. To this end, we propose OneThinker, an all-in-one reasoning model that unifies image and video understanding across diverse fundamental visual tasks, including question answering, captioning, spatial and temporal grounding, tracking, and segmentation. To achieve this, we construct the OneThinker-600k training corpus covering all these tasks and employ commercial models for CoT annotation, resulting in OneThinker-SFT-340k for SFT cold start. Furthermore, we propose EMA-GRPO to handle reward heterogeneity in multi-task RL by tracking task-wise moving averages of reward standard deviations for balanced optimization. Extensive experiments on diverse visual benchmarks show that OneThinker delivers strong performance on 31 benchmarks, across 10 fundamental visual understanding tasks. Moreover, it exhibits effective knowledge transfer between certain tasks and preliminary zero-shot generalization ability, marking a step toward a unified multimodal reasoning generalist. All code, model, and data are released.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、最近、MLLM(Multimodal Large Language Models)の視覚的推論において、顕著な成功を収めた。
しかし、既存のアプローチは通常、異なるタスクのための別々のモデルを訓練し、画像とビデオの推論を非結合領域として扱う。
この結果、マルチモーダル推論ジェネリストに対するスケーラビリティが制限され、実用的な汎用性が制限され、タスクやモダリティ間の潜在的な知識共有が妨げられる。
この目的のために,質問応答,キャプション,空間的・時間的グラウンド,トラッキング,セグメンテーションなど,多様な視覚的タスクを総合的に理解するオールインワン推論モデルOneThinkerを提案する。
そこで我々は,これらすべてのタスクをカバーするOneThinker-600kトレーニングコーパスを構築し,CoTアノテーションの商用モデルを用いて,SFTコールドスタートのためのOneThinker-SFT-340kを実現する。
さらに,マルチタスクRLにおける報酬の不均一性を扱うためのEMA-GRPOを提案する。
多様なビジュアルベンチマークに関する大規模な実験によると、OneThinkerは10の基本的な視覚的理解タスクに対して、31のベンチマークで強力なパフォーマンスを提供する。
さらに、特定のタスク間の効果的な知識伝達と予備ゼロショット一般化能力を示し、統一マルチモーダル推論一般論への一歩を示す。
コード、モデル、データはすべてリリースされます。
関連論文リスト
- Visual Bridge: Universal Visual Perception Representations Generating [27.034175361589572]
複数のタスクにまたがる多様な視覚表現を生成できるフローマッチングに基づく普遍的な視覚認識フレームワークを提案する。
提案手法は,画像パッチトークンからタスク固有の表現への共通フローマッチング問題を定式化したものである。
我々のモデルはゼロショットと微調整の両方で競争性能を達成し、事前のジェネラリストやいくつかのスペシャリストモデルよりも優れています。
論文 参考訳(メタデータ) (2025-11-11T06:25:30Z) - Training-free Uncertainty Guidance for Complex Visual Tasks with MLLMs [61.64185573373394]
本稿では,MLLMの本質的不確かさをプロアクティブ誘導信号として用いた学習自由フレームワークを提案する。
応答不確実性によって候補の視覚入力をスコアする統一的なメカニズムを導入し、モデルが最も健全なデータに自律的にフォーカスできるようにする。
本研究は,本質的な不確実性を活用することが,細粒度マルチモーダル性能を高めるための強力で汎用的な戦略であることを実証する。
論文 参考訳(メタデータ) (2025-10-01T09:20:51Z) - Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward [77.34936657745578]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
マルチモーダル大言語モデル(MLLM)は、視覚のきめ細やかな理解に苦しむ。
近年の研究では、ツールの使用や視覚的なタスクを自動回帰フレームワークに統一する手法が開発されており、多くの場合、全体的なマルチモーダルパフォーマンスを犠牲にしている。
本稿では,典型的な視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法であるタスク選好最適化(TPO)を提案する。
論文 参考訳(メタデータ) (2024-12-26T18:56:05Z) - One Framework to Rule Them All: Unifying Multimodal Tasks with LLM Neural-Tuning [23.241807997843427]
複数のタスクやモダリティを同時に処理する統合フレームワークを提案する。
このフレームワークでは、すべてのモダリティとタスクは統一トークンとして表現され、単一の一貫したアプローチでトレーニングされる。
複数のタスクラベルを付加したサンプルを含む新しいベンチマークMMUDを提案する。
複数のタスクを合理化して効率的に同時に処理できることを実証する。
論文 参考訳(メタデータ) (2024-08-06T07:19:51Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。