論文の概要: TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning
- arxiv url: http://arxiv.org/abs/2504.09641v1
- Date: Sun, 13 Apr 2025 16:32:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-23 03:38:18.270022
- Title: TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning
- Title(参考訳): TinyLLaVA-Video-R1:ビデオ推論のためのより小さなLMMを目指して
- Authors: Xingjian Zhang, Siwei Wen, Wenjun Wu, Lei Huang,
- Abstract要約: 我々は,小規模モデルの推論能力の探索は,限られた計算資源を持つ研究者にとって重要な課題であると主張している。
本稿では,小型ビデオ推論モデルTinyLLaVA-Video-R1を提案する。
- 参考スコア(独自算出の注目度): 7.818698554631196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, improving the reasoning ability of large multimodal models (LMMs) through reinforcement learning has made great progress. However, most existing works are based on highly reasoning-intensive datasets such as mathematics and code, and researchers generally choose large-scale models as the foundation. We argue that exploring small-scale models' reasoning capabilities remains valuable for researchers with limited computational resources. Moreover, enabling models to explain their reasoning processes on general question-answering datasets is equally meaningful. Therefore, we present the small-scale video reasoning model TinyLLaVA-Video-R1. Based on TinyLLaVA-Video, a traceably trained video understanding model with no more than 4B parameters, it not only demonstrates significantly improved reasoning and thinking capabilities after using reinforcement learning on general Video-QA datasets, but also exhibits the emergent characteristic of "aha moments". Furthermore, we share a series of experimental findings, aiming to provide practical insights for future exploration of video reasoning (thinking) abilities in small-scale models. It is available at https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.
- Abstract(参考訳): 近年,強化学習による大規模マルチモーダルモデル(LMM)の推論能力の向上は大きな進歩を遂げている。
しかしながら、既存のほとんどの研究は、数学やコードのような非常に推論集約的なデータセットに基づいており、研究者は一般に、大規模なモデルを基礎として選ぶ。
我々は,小規模モデルの推論能力の探索は,限られた計算資源を持つ研究者にとって重要な課題であると主張している。
さらに、一般的な質問応答データセット上で、モデルが推論プロセスを説明することを可能にすることは、同様に意味がある。
そこで我々は,小型ビデオ推論モデルTinyLLaVA-Video-R1を提案する。
TinyLLaVA-Videoは4Bパラメータを含まない追跡訓練されたビデオ理解モデルであり、一般的なビデオQAデータセットでの強化学習を用いて、推論と思考能力を大幅に改善しただけでなく、"aha moments"の創発的な特徴も示している。
さらに、我々は、小規模モデルにおける映像推論(思考)能力の今後の探索に実用的な洞察を提供することを目的として、一連の実験結果を共有した。
https://github.com/ZhangXJ199/TinyLLaVA-Video-R1で入手できる。
関連論文リスト
- PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding [126.15907330726067]
我々は、画像とビデオの理解において透過的な研究を行うために、完全にオープンで再現可能なフレームワークでパーセプションモデル言語(PLM)を構築した。
モデルからの蒸留なしで標準的な訓練パイプラインを分析し、大規模合成データを調べ、重要なデータギャップを識別する。
論文 参考訳(メタデータ) (2025-04-17T17:59:56Z) - Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。
わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。
Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文 参考訳(メタデータ) (2025-04-17T06:16:11Z) - Video-R1: Reinforcing Video Reasoning in MLLMs [27.99261687064233]
Video-R1は、マルチモーダルな大言語モデル内でビデオ推論を行うためのR1パラダイムを体系的に探求する最初の試みである。
まず,T-GRPOアルゴリズムを提案する。
ビデオデータのみに頼るのではなく、高品質の画像推論データをトレーニングプロセスに組み込む。
論文 参考訳(メタデータ) (2025-03-27T17:59:51Z) - TinyLLaVA-Video: A Simple Framework of Small-scale Large Multimodal Models for Video Understanding [10.92767902813594]
本稿では,TinyLLaVA-Videoという,ビデオシーケンスを簡単な方法で処理するパラメータが4Bを超えないビデオ理解モデルを提案する。
このフレームワークの有効性を実験により検証し、既存の7Bモデルに匹敵する性能を達成する最良のモデルを示す。
コードとトレーニングのレシピは完全にオープンソースで、すべてのコンポーネントとトレーニングデータが公開されている。
論文 参考訳(メタデータ) (2025-01-26T13:10:12Z) - VideoWorld: Exploring Knowledge Learning from Unlabeled Videos [119.35107657321902]
この研究は、深層生成モデルが視覚入力のみから複雑な知識を学習できるかどうかを考察する。
我々は、未ラベルのビデオデータに基づいて訓練された自動回帰ビデオ生成モデルであるVideoWorldを開発し、ビデオベースのGoとロボット制御タスクにおける知識獲得能力をテストする。
論文 参考訳(メタデータ) (2025-01-16T18:59:10Z) - Apollo: An Exploration of Video Understanding in Large Multimodal Models [65.06400672040836]
本稿では,大規模マルチモーダルモデルにおいて映像理解を効果的に推進する要因を明らかにする研究について述べる。
われわれのモデルは、1時間の動画を効率よく知覚でき、Apollo-3Bは、LongVideoBenchの55.1で、既存の7ドルBのモデルよりも優れている。
Apollo-7B は 7B LMM に対して MLVU では 70.9 、 Video-MME では 63.3 である。
論文 参考訳(メタデータ) (2024-12-13T18:53:24Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - Language Model Guided Interpretable Video Action Reasoning [32.999621421295416]
我々はLanguage-guided Interpretable Action Recognition framework (LaIAR)という新しいフレームワークを提案する。
LaIARは、言語モデルからの知識を活用して、認識能力とビデオモデルの解釈可能性の両方を強化する。
本質的には、ビデオモデルと言語モデルを整合させるタスクとして、ビデオモデル決定を理解することの問題を再定義する。
論文 参考訳(メタデータ) (2024-04-02T02:31:13Z) - Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。
本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-04-01T17:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。