論文の概要: ReMoT: Reinforcement Learning with Motion Contrast Triplets
- arxiv url: http://arxiv.org/abs/2603.00461v1
- Date: Sat, 28 Feb 2026 04:42:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.20505
- Title: ReMoT: Reinforcement Learning with Motion Contrast Triplets
- Title(参考訳): ReMoT:モーションコントラストトリプレットを用いた強化学習
- Authors: Cong Wan, Zeyu Guo, Jiangyang Li, SongLin Dong, Yifan Bai, Lin Peng, Zhiheng Ma, Yihong Gong,
- Abstract要約: 本稿では,VLMの時間的欠陥に対処する統合トレーニングパラダイムであるReMoTを提案する。
ルールベースの自動フレームワークはビデオメタアノテーションから大規模(1K)モーションコントラスト三重項であるReMoT-16K三重項を生成する。
また, 微妙な識別のVLMを測定するために, 微粒な動きコントラスト三重項に対する最初のベンチマークを構築した。
- 参考スコア(独自算出の注目度): 37.29312323908102
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present ReMoT, a unified training paradigm to systematically address the fundamental shortcomings of VLMs in spatio-temporal consistency -- a critical failure point in navigation, robotics, and autonomous driving. ReMoT integrates two core components: (1) A rule-based automatic framework that generates ReMoT-16K, a large-scale (16.5K triplets) motion-contrast dataset derived from video meta-annotations, surpassing costly manual or model-based generation. (2) Group Relative Policy Optimization, which we empirically validate yields optimal performance and data efficiency for learning this contrastive reasoning, far exceeding standard Supervised Fine-Tuning. We also construct the first benchmark for fine-grained motion contrast triplets to measure a VLM's discrimination of subtle motion attributes (e.g., opposing directions). The resulting model achieves state-of-the-art performance on our new benchmark and multiple standard VLM benchmarks, culminating in a remarkable 25.1% performance leap on spatio-temporal reasoning tasks.
- Abstract(参考訳): 我々は、時空間整合性におけるVLMの根本的な欠点を体系的に解決する統一的なトレーニングパラダイムであるReMoTを紹介します。
ReMoTは、ビデオメタアノテーションから派生した大規模な(16.5K)モーションコントラストデータセットであるReMoT-16Kを生成するルールベースの自動フレームワークである。
2) グループ相対的政策最適化は,この対照的な推論を学習するための最適性能とデータ効率を実証的に検証し,標準のスーパービジョン・ファインチューニングをはるかに超えている。
また、VLMの微妙な動き特性(例えば、反対方向)の識別を計測するために、運動コントラスト三重項の微細化のための最初のベンチマークを構築した。
その結果、新しいベンチマークと複数の標準VLMベンチマークで最先端のパフォーマンスが達成され、時空間推論タスクで25.1%のパフォーマンスが飛躍的に向上した。
関連論文リスト
- IRG-MotionLLM: Interleaving Motion Generation, Assessment and Refinement for Text-to-Motion Generation [54.36300724708094]
評価と改善のタスクは、理解と生成の間の双方向の知識フローを可能にするために重要なブリッジとして機能する。
動作生成、評価、改善をシームレスにインターリーブし、生成性能を向上させる最初のモデルであるIRG-MotionLLMを紹介する。
論文 参考訳(メタデータ) (2025-12-11T15:16:06Z) - Automating Benchmark Design [17.34266257717423]
動的ベンチマーク設計のプロセスを自動化するフレームワークであるBeTaLを開発した。
2つの新しいベンチマークを作成し、人気のあるエージェントベンチマークを拡張します。
BeTaLは、平均偏差が5.3%から13.2%と、望まれる困難にかなり近いベンチマークを生成する。
論文 参考訳(メタデータ) (2025-10-28T23:53:36Z) - UniVid: The Open-Source Unified Video Model [41.15980565061684]
MLLMと拡散デコーダを軽量アダプタで結合する統一アーキテクチャUniVidを提案する。
標準ベンチマークの実験では、最先端のパフォーマンスが示されている。
論文 参考訳(メタデータ) (2025-09-29T02:31:36Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。
CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。
これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - TB-Bench: Training and Testing Multi-Modal AI for Understanding Spatio-Temporal Traffic Behaviors from Dashcam Images/Videos [17.41208629642756]
本研究では,エゴ中心の視点から,8つの知覚タスク間の交通行動を理解するためのMLLMの評価ベンチマークTB-Benchを提案する。
また、視覚指導チューニング、TB-100k、TB-250k、タスクの単純かつ効果的なベースラインも導入する。
対照的に、TB-100kまたはTB-250kの微調整では、ベースラインモデルの平均精度が85%まで向上し、タスクの性能が大幅に向上する。
論文 参考訳(メタデータ) (2025-01-10T06:02:06Z) - Data-Driven Approaches for Modelling Target Behaviour [1.5495593104596401]
追跡アルゴリズムの性能は、対象の力学に関する選択されたモデル仮定に依存する。
本稿では,物体の動きを記述するために機械学習を利用する3つの異なる手法の比較研究を行う。
論文 参考訳(メタデータ) (2024-10-14T14:18:27Z) - ProMotion: Prototypes As Motion Learners [46.08051377180652]
本稿では,基本動作タスクをモデル化するための統一プロトタイプフレームワークであるProMotionを紹介する。
ProMotionは、現在のタスク固有のパラダイムとは別の、魅力的な属性を提供する。
我々は,特徴記述器と原型学習器を併用して,動作の複雑さを解読する2つのメカニズムを生かした。
論文 参考訳(メタデータ) (2024-06-07T15:10:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。