論文の概要: TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning
- arxiv url: http://arxiv.org/abs/2504.09641v1
- Date: Sun, 13 Apr 2025 16:32:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:56.914431
- Title: TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning
- Title(参考訳): TinyLLaVA-Video-R1:ビデオ推論のためのより小さなLMMを目指して
- Authors: Xingjian Zhang, Siwei Wen, Wenjun Wu, Lei Huang,
- Abstract要約: 我々は,小規模モデルの推論能力の探索は,限られた計算資源を持つ研究者にとって重要な課題であると主張している。
本稿では,小型ビデオ推論モデルTinyLLaVA-Video-R1を提案する。
- 参考スコア(独自算出の注目度): 7.818698554631196
- License:
- Abstract: Recently, improving the reasoning ability of large multimodal models (LMMs) through reinforcement learning has made great progress. However, most existing works are based on highly reasoning-intensive datasets such as mathematics and code, and researchers generally choose large-scale models as the foundation. We argue that exploring small-scale models' reasoning capabilities remains valuable for researchers with limited computational resources. Moreover, enabling models to explain their reasoning processes on general question-answering datasets is equally meaningful. Therefore, we present the small-scale video reasoning model TinyLLaVA-Video-R1. Based on TinyLLaVA-Video, a traceably trained video understanding model with no more than 4B parameters, it not only demonstrates significantly improved reasoning and thinking capabilities after using reinforcement learning on general Video-QA datasets, but also exhibits the emergent characteristic of "aha moments". Furthermore, we share a series of experimental findings, aiming to provide practical insights for future exploration of video reasoning (thinking) abilities in small-scale models. It is available at https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.
- Abstract(参考訳): 近年,強化学習による大規模マルチモーダルモデル(LMM)の推論能力の向上は大きな進歩を遂げている。
しかしながら、既存のほとんどの研究は、数学やコードのような非常に推論集約的なデータセットに基づいており、研究者は一般に、大規模なモデルを基礎として選ぶ。
我々は,小規模モデルの推論能力の探索は,限られた計算資源を持つ研究者にとって重要な課題であると主張している。
さらに、一般的な質問応答データセット上で、モデルが推論プロセスを説明することを可能にすることは、同様に意味がある。
そこで我々は,小型ビデオ推論モデルTinyLLaVA-Video-R1を提案する。
TinyLLaVA-Videoは4Bパラメータを含まない追跡訓練されたビデオ理解モデルであり、一般的なビデオQAデータセットでの強化学習を用いて、推論と思考能力を大幅に改善しただけでなく、"aha moments"の創発的な特徴も示している。
さらに、我々は、小規模モデルにおける映像推論(思考)能力の今後の探索に実用的な洞察を提供することを目的として、一連の実験結果を共有した。
https://github.com/ZhangXJ199/TinyLLaVA-Video-R1で入手できる。
関連論文リスト
- TinyLLaVA-Video: A Simple Framework of Small-scale Large Multimodal Models for Video Understanding [10.92767902813594]
本稿では,TinyLLaVA-Videoという,ビデオシーケンスを簡単な方法で処理するパラメータが4Bを超えないビデオ理解モデルを提案する。
このフレームワークの有効性を実験により検証し、既存の7Bモデルに匹敵する性能を達成する最良のモデルを示す。
コードとトレーニングのレシピは完全にオープンソースで、すべてのコンポーネントとトレーニングデータが公開されている。
論文 参考訳(メタデータ) (2025-01-26T13:10:12Z) - VideoWorld: Exploring Knowledge Learning from Unlabeled Videos [119.35107657321902]
この研究は、深層生成モデルが視覚入力のみから複雑な知識を学習できるかどうかを考察する。
我々は、未ラベルのビデオデータに基づいて訓練された自動回帰ビデオ生成モデルであるVideoWorldを開発し、ビデオベースのGoとロボット制御タスクにおける知識獲得能力をテストする。
論文 参考訳(メタデータ) (2025-01-16T18:59:10Z) - Admitting Ignorance Helps the Video Question Answering Models to Answer [82.22149677979189]
モデルはしばしばショートカットを定め、結果として質問と回答の間に急激な相関関係が生じる、と我々は主張する。
そこで本研究では,モデルに不明瞭さを認めざるを得ない新たな学習手法を提案する。
実際に、我々のフレームワークに最先端のモデルを統合することで、その有効性を検証する。
論文 参考訳(メタデータ) (2025-01-15T12:44:52Z) - Apollo: An Exploration of Video Understanding in Large Multimodal Models [65.06400672040836]
本稿では,大規模マルチモーダルモデルにおいて映像理解を効果的に推進する要因を明らかにする研究について述べる。
われわれのモデルは、1時間の動画を効率よく知覚でき、Apollo-3Bは、LongVideoBenchの55.1で、既存の7ドルBのモデルよりも優れている。
Apollo-7B は 7B LMM に対して MLVU では 70.9 、 Video-MME では 63.3 である。
論文 参考訳(メタデータ) (2024-12-13T18:53:24Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - Language Model Guided Interpretable Video Action Reasoning [32.999621421295416]
我々はLanguage-guided Interpretable Action Recognition framework (LaIAR)という新しいフレームワークを提案する。
LaIARは、言語モデルからの知識を活用して、認識能力とビデオモデルの解釈可能性の両方を強化する。
本質的には、ビデオモデルと言語モデルを整合させるタスクとして、ビデオモデル決定を理解することの問題を再定義する。
論文 参考訳(メタデータ) (2024-04-02T02:31:13Z) - Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。
本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-04-01T17:28:16Z) - Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen
Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。
R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。
質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文 参考訳(メタデータ) (2023-06-15T20:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。