論文の概要: Test-Time Matching: Unlocking Compositional Reasoning in Multimodal Models
- arxiv url: http://arxiv.org/abs/2510.07632v1
- Date: Thu, 09 Oct 2025 00:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.784647
- Title: Test-Time Matching: Unlocking Compositional Reasoning in Multimodal Models
- Title(参考訳): テスト時間マッチング:マルチモーダルモデルにおける構成推論のアンロック
- Authors: Yinglun Zhu, Jiancheng Zhang, Fuzhi Tang,
- Abstract要約: 評価指標を体系的に過小評価する手法が広く用いられていることを示す。
グループ構造をよりよく活用し、かなり隠れた能力を明らかにするグループマッチングスコアを導入します。
テスト時間マッチング(TTM, Test-Time Matching)は、外部の監視なしにモデル性能をさらにブートストラップする反復的自己改善アルゴリズムである。
- 参考スコア(独自算出の注目度): 9.972892886403228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier AI models have achieved remarkable progress, yet recent studies suggest they struggle with compositional reasoning, often performing at or below random chance on established benchmarks. We revisit this problem and show that widely used evaluation metrics systematically underestimate model capability. To address this, we introduce a group matching score that better exploits group structure and reveals substantial hidden capability in both contrastive vision-language models (VLMs) and multimodal large language models (MLLMs). Moreover, simply overfitting to the induced group matchings at test time transfers this hidden capability into higher scores under standard evaluation metrics, closing much of the reported gap. This adjustment enables SigLIP-B16 to surpass all previous results and GPT-4.1 to yield the first result surpassing estimated human performance on Winoground. Building on this insight, we propose Test-Time Matching (TTM), an iterative, self-improving algorithm that further bootstraps model performance without any external supervision. TTM delivers additional, non-trivial improvements: for example, TTM enables SigLIP-B16 to surpass GPT-4.1 on MMVP-VLM, establishing a new state of the art. Importantly, TTM remains broadly effective even on benchmarks without metric-induced effects or group structures, achieving relative gains up to 85.7% on challenging datasets such as WhatsUp. Across 16 dataset variants spanning diverse setups, our experiments demonstrate that TTM consistently improves model performance and advances the frontier of compositional reasoning.
- Abstract(参考訳): フロンティアAIモデルは目覚ましい進歩を遂げているが、最近の研究では、しばしば確立されたベンチマークでランダムな確率以下で実行する、構成的推論に苦しむことを示唆している。
我々はこの問題を再考し、広く使われている評価指標が体系的に過小評価されていることを示す。
これを解決するために,グループマッチングスコアを導入し,比較視覚言語モデル (VLM) とマルチモーダル大言語モデル (MLLM) の両方において,グループ構造をよりよく活用する。
さらに、テスト時に誘導されたグループマッチングにオーバーフィットするだけで、この隠れた能力は標準的な評価基準の下で高いスコアに変換され、報告されたギャップの大部分を閉じます。
この調整により、SigLIP-B16は以前の結果をすべて上回り、GPT-4.1はWinogroundで推定された人間のパフォーマンスを上回る最初の結果を得る。
この知見に基づいて、外部の監視なしにモデル性能をさらにブートストラップする反復的自己改善アルゴリズムであるテスト時間マッチング(TTM)を提案する。
例えば、TTMはSigLIP-B16がCMM-VLMでGPT-4.1を超えることを可能にし、新しい最先端技術を確立する。
重要な点として、TTMはメトリクス誘発効果やグループ構造のないベンチマークでも広く有効であり、WhatsUpのような挑戦的なデータセットで85.7%の相対的なゲインを達成している。
様々な設定にまたがる16種類のデータセットの変種に対して,TTMはモデル性能を一貫して改善し,構成的推論のフロンティアを向上することを示した。
関連論文リスト
- Advancing Sentiment Analysis: A Novel LSTM Framework with Multi-head Attention [0.0]
本研究では,マルチヘッドアテンション機構とTF-IDF最適化を用いたLSTMに基づく感情分類モデルを提案する。
公開データセットの実験結果から,新しい手法は精度,リコール,F1スコアといった重要な指標を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-03-11T06:21:49Z) - TB-Bench: Training and Testing Multi-Modal AI for Understanding Spatio-Temporal Traffic Behaviors from Dashcam Images/Videos [17.41208629642756]
本研究では,エゴ中心の視点から,8つの知覚タスク間の交通行動を理解するためのMLLMの評価ベンチマークTB-Benchを提案する。
また、視覚指導チューニング、TB-100k、TB-250k、タスクの単純かつ効果的なベースラインも導入する。
対照的に、TB-100kまたはTB-250kの微調整では、ベースラインモデルの平均精度が85%まで向上し、タスクの性能が大幅に向上する。
論文 参考訳(メタデータ) (2025-01-10T06:02:06Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation [50.00235162432848]
我々は22Kパラレル文と12Mパラメータしか持たないALMAモデルを訓練する。
ALMA-Rと呼ばれる結果のモデルは、WMTコンテストの勝者とGPT-4のパフォーマンスと一致または上回ることができる。
論文 参考訳(メタデータ) (2024-01-16T15:04:51Z) - Tiny Time Mixers (TTMs): Fast Pre-trained Models for Enhanced Zero/Few-Shot Forecasting of Multivariate Time Series [11.635608108358575]
本稿では,効率的な転送学習機能を備えたコンパクトモデルであるTiny Time Mixers (TTM)について紹介する。
TTMには、適応パッチ、多様な解像度サンプリング、およびさまざまなデータセット解像度の事前トレーニングを処理するための解像度プレフィックスチューニングなどのイノベーションが含まれている。
既存のベンチマークでは0/few-shot予測(4-40%)を上回り、計算要求を大幅に削減した。
論文 参考訳(メタデータ) (2024-01-08T15:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。