論文の概要: Meta-TTRL: A Metacognitive Framework for Self-Improving Test-Time Reinforcement Learning in Unified Multimodal Models
- arxiv url: http://arxiv.org/abs/2603.15724v1
- Date: Mon, 16 Mar 2026 17:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.912281
- Title: Meta-TTRL: A Metacognitive Framework for Self-Improving Test-Time Reinforcement Learning in Unified Multimodal Models
- Title(参考訳): Meta-TTRL:統一型マルチモーダルモデルにおけるテスト時間強化学習の自己改善のためのメタ認知フレームワーク
- Authors: Lit Sin Tan, Junzhe Chen, Xiaolong Fu, Lichen Ma, Junshi Huang, Jianzhong Shi, Yan Li, Lijie Wen,
- Abstract要約: テキスト・ツー・イメージ(T2I)生成における統一マルチモーダル・モデル(UMM)の既存のテスト時間スケーリング手法は、探索やサンプリング戦略に依存している。
メタ認知型テスト時間強化学習フレームワークMeta-TTRLを提案する。
大規模な実験により、Meta-TTRLは3つの代表的UMMにわたってよく一般化されることが示された。
- 参考スコア(独自算出の注目度): 13.234585564123485
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Existing test-time scaling (TTS) methods for unified multimodal models (UMMs) in text-to-image (T2I) generation primarily rely on search or sampling strategies that produce only instance-level improvements, limiting the ability to learn from prior inferences and accumulate knowledge across similar prompts. To overcome these limitations, we propose Meta-TTRL, a metacognitive test-time reinforcement learning framework. Meta-TTRL performs test-time parameter optimization guided by model-intrinsic monitoring signals derived from the meta-knowledge of UMMs, achieving self-improvement and capability-level improvement at test time. Extensive experiments demonstrate that Meta-TTRL generalizes well across three representative UMMs, including Janus-Pro-7B, BAGEL, and Qwen-Image, achieving significant gains on compositional reasoning tasks and multiple T2I benchmarks with limited data. We provide the first comprehensive analysis to investigate the potential of test-time reinforcement learning (TTRL) for T2I generation in UMMs. Our analysis further reveals a key insight underlying effective TTRL: metacognitive synergy, where monitoring signals align with the model's optimization regime to enable self-improvement.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成における統一マルチモーダルモデル(UMM)のための既存のテスト時間スケーリング(TTS)手法は、主にインスタンスレベルの改善のみを生成する検索やサンプリング戦略に依存しており、事前の推論から学習し、同様のプロンプトを通じて知識を蓄積する能力を制限する。
このような制約を克服するため,メタ認知型テスト時間強化学習フレームワークMeta-TTRLを提案する。
メタTTRLは、UMMのメタ知識から導かれるモデル固有のモニタリング信号によって誘導されるテスト時間パラメータ最適化を行い、テスト時に自己改善と能力レベルの改善を実現する。
広範な実験により、Meta-TTRLはJanus-Pro-7B、BAGEL、Qwen-Imageを含む3つの代表的UMMに対してよく一般化され、構成的推論タスクや限られたデータを持つ複数のT2Iベンチマークにおいて顕著に向上することが示されている。
UMMにおけるT2I生成のためのテスト時間強化学習(TTRL)の可能性を調べるための最初の包括的分析を提供する。
メタ認知相乗効果 (メタ認知相乗効果) は, 自己改善を実現するために, 監視信号がモデルの最適化体制と整合するものである。
関連論文リスト
- UniT: Unified Multimodal Chain-of-Thought Test-time Scaling [85.590774707406]
統一モデルは単一のアーキテクチャ内でマルチモーダル理解と生成の両方を扱うことができるが、通常は出力を反復的に書き換えることなく単一のパスで操作する。
マルチモーダルなテストタイムスケーリングのためのフレームワークであるUniTを導入し、単一の統一モデルで複数のラウンドをまたいだ推論、検証、精査を可能にします。
論文 参考訳(メタデータ) (2026-02-12T18:59:49Z) - Dual-Phase LLM Reasoning: Self-Evolved Mathematical Frameworks [48.105258051884384]
本稿では,モデルの自己補正能力を高めるための2段階トレーニングフレームワークを提案する。
最初の段階では、マルチターン対話戦略がモデルをガイドし、長いチェーン・オブ・シント(CoT)データを生成する。
第2段階では、データの分散を動的に最適化する難易度の高い拒絶サンプリング機構を採用している。
論文 参考訳(メタデータ) (2026-01-09T08:19:11Z) - MetaTPT: Meta Test-time Prompt Tuning for Vision-Language Models [62.20230218401528]
テスト時間プロンプトチューニング(MetaTPT, Meta Test-Time Prompt Tuning)は、テスト時間プロンプトチューニングをガイドする自己教師付き補助タスクを学習するメタラーニングフレームワークである。
拡張学習と即時チューニングを結合することにより、MetaTPTはドメインシフトによるテスト時間適応を改善する。
論文 参考訳(メタデータ) (2025-12-13T10:23:10Z) - CG-TTRL: Context-Guided Test-Time Reinforcement Learning for On-Device Large Language Models [37.06397567773862]
TTRL(Test-time Reinforcement Learning)は、テスト時に複雑なタスクに基礎モデルを適用することを約束している。
本稿では,両方のサンプリングフェーズに動的にコンテキストを組み込んだコンテキスト誘導型TTRLを提案し,デバイス上での効率的なコンテキスト選択法を提案する。
論文 参考訳(メタデータ) (2025-11-09T15:51:52Z) - Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models [28.416254061159176]
マルチモーダルキーフレーズ予測(MMKP)は、テキストのみの手法を超えて進歩することを目的としている。
従来のマルチモーダルアプローチは、困難な不在と目に見えないシナリオを扱う上で、重大な制限があることが証明されている。
MMKPタスクに視覚言語モデル(VLM)を活用することを提案する。
論文 参考訳(メタデータ) (2025-10-10T13:13:07Z) - NeuroTTT: Bridging Pretraining-Downstream Task Misalignment in EEG Foundation Models via Test-Time Training [6.030518150035875]
本稿では,脳波基礎モデルのための2段階アライメント戦略を提案する。
まず,ドメイン固有の自己教師型微調整パラダイムであるNeuroTTTを提案する。
第2に、未ラベルのテストサンプルの自己教師型テストタイムトレーニングを行う。
我々のアプローチは、大規模なEEG基盤モデルにおけるテストタイムトレーニングとドメインチューニングされたセルフスーパービジョンを統合する最初の方法です。
論文 参考訳(メタデータ) (2025-09-30T14:14:46Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Test-Time Training on Graphs with Large Language Models (LLMs) [68.375487369596]
グラフニューラルネットワーク(GNN)をトレーニングするための有望なアプローチとして,TTT(Test-Time Training)が提案されている。
テキスト分散グラフ(TAG)上でのLLM(Large Language Models)の優れたアノテーション能力に着想を得て,LLMをアノテータとしてグラフ上でのテスト時間トレーニングを強化することを提案する。
2段階のトレーニング戦略は、限定的でノイズの多いラベルでテストタイムモデルを調整するように設計されている。
論文 参考訳(メタデータ) (2024-04-21T08:20:02Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。