Fugu-MT 論文翻訳(概要): LLaVA-OneVision-2: Towards Next-Generation Perceptual Intelligence

論文の概要: LLaVA-OneVision-2: Towards Next-Generation Perceptual Intelligence

arxiv url: http://arxiv.org/abs/2605.25979v1
Date: Mon, 25 May 2026 15:54:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:20.451923
Title: LLaVA-OneVision-2: Towards Next-Generation Perceptual Intelligence
Title（参考訳）: LLaVA-OneVision-2:次世代の知覚知能を目指して
Authors: Xiang An, Yin Xie, Feilong Tang, Yunyao Yan, Huajie Tan, Didi Zhu, Changrui Chen, Xiuwei Zhao, Bin Qin, Kaicheng Yang, Yifei Shen, Yuanhan Zhang, Kaichen Zhang, Wenkang Zhang, Zheng Cheng, Nansen Zhang, Chunsheng Wu, Chunjiang Ge, Zimin Ran, Dehua Song, Chunyuan Li, Shikun Feng, Ming Hu, Zhangquan Chen, Junbo Niu, Bo Li, Ziyong Feng, Ziwei Liu, Zongyuan Ge, Jiankang Deng,
Abstract要約: LLaVA-OneVision-2(LLaVA-OV-2)について述べる。幅広いマルチモーダルベンチマークで優れたパフォーマンスを実現している。際立った能力は、ビデオ理解、時間的接地、空間的接地、操作言語推論にまたがる統一的な認識である。
参考スコア（独自算出の注目度）: 107.63317552620231
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce LLaVA-OneVision-2 (LLaVA-OV-2), the most capable vision-language model in the LLaVA-OneVision series to date, achieving superior performance across a broad range of multimodal benchmarks. The model builds on a native OneVision-Encoder and incorporates Windowed Attention for efficient local computation while maintaining native resolution. Its key advance is codec-stream tokenization: it treats compressed video as a continuous bit-cost stream, where bit-cost dynamics determine adaptive temporal groups, and motion-residual cues select salient spatial evidence into compact visual canvases. This allocation concentrates a limited token budget on event-bearing content, enabling more stable long-video token compression than fixed groups of pictures. A shared 3D RoPE further places codec canvases, sampled frames, and images in a unified spatiotemporal coordinate system. Furthermore, we build the LLaVA-OV-2 data and training stack around large-scale open supervision: approximately 8M re-captioned video samples for pretraining, a 4M-sample spatial corpus for fine-tuning. We also introduce JumpScore, a temporal-localization benchmark targeting fine-grained grounding in high-frequency, densely repeated motion, a regime underrepresented by existing video evaluations. A standout capability of LLaVA-OV-2 is its unified perception across video understanding, temporal grounding, spatial grounding, and manipulation-trace reasoning. On JumpScore, LLaVA-OneVision-2-8B reaches 74.9 JumpScore mAP, surpassing Qwen3-VL-8B (30.1) by +44.8 points; under matched visual-token budgets on the same benchmark, codec-stream inputs improve temporal grounding over frame sampling by +9.7 points. Across standard benchmarks, LLaVA-OneVision-2-8B further outperforms Qwen3-VL-8B by +4.3 average points on video tasks, +5.3 on spatial tasks, and +15.6 average J&F on tracking tasks.
Abstract（参考訳）: LLaVA-OneVisionシリーズの視覚言語モデルであるLLaVA-OneVision-2(LLaVA-OV-2)を紹介する。モデルはネイティブのOneVision-Encoder上に構築され、ネイティブ解像度を維持しながら効率的なローカル計算のためにWindowed Attentionが組み込まれている。圧縮された動画を連続的なビットコストのストリームとして扱い、ビットコストのダイナミックスが適応的な時間的グループを決定する。このアロケーションは、イベントを含むコンテンツに限られたトークン予算を集中させ、固定された画像群よりも安定した長ビデオトークン圧縮を可能にする。共有3D RoPEは、さらにコーデックキャンバス、サンプルフレーム、画像を統合時空間座標系に配置する。さらに,LLaVA-OV-2データとトレーニングスタックを構築し,約8Mのプレトレーニング用再カプセル化ビデオサンプル,微調整用4Mサンプル空間コーパスを作成した。また,高頻度かつ高頻度に繰り返される動作における微粒なグラウンドニングを目標とした時間的局所化ベンチマークであるJumpScoreも導入した。 LLaVA-OV-2の際立った能力は、映像理解、時間的接地、空間的接地、操作的トレース推論にまたがる統一的な認識である。 JumpScoreでは、LLaVA-OneVision-2-8Bが74.9 JumpScore mAPに達し、Qwen3-VL-8B(0.1)を+44.8ポイント上回った。標準的なベンチマークでは、LLaVA-OneVision-2-8BはQwen3-VL-8Bを+4.3、空間的タスク+5.3、追跡タスク+15.6で上回っている。

関連論文リスト

VEGA: Visual Encoder Grounding Alignment for Spatially-Aware Vision-Language-Action Models [55.12929235609365]
現在の視覚言語アクション(VLA)モデルの視覚バックボーンは、主に3次元幾何学的監督を伴わない2次元画像データに事前訓練されている。既存の暗黙の接地法は、VLA特徴を3D認識基盤モデルと整合させることによって、この問題に部分的に対処する。 DINOv2-FiT3D の空間認識機能と VLA の視覚エンコーダの出力を直接一致させるフレームワーク VEGA を提案する。
論文参考訳（メタデータ） (2026-05-11T12:44:26Z)
HieraVid: Hierarchical Token Pruning for Fast Video Large Language Models [43.7747080569325]
HieraVidは階層的なプルーニングフレームワークで、視覚的冗長性を徐々に動的に減少させる。 HieraVidの有効性を評価するために,広範に使用されている4つのビデオ理解ベンチマークについて広範な実験を行った。トークンの30%しか保持されていないHieraVidは、それぞれLLaVA-Video-7BとLLaVA-OneVision-7Bのパフォーマンスの98%と99%を維持しながら、新しい最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2026-04-02T10:40:15Z)
See, Remember, Explore: A Benchmark and Baselines for Streaming Spatial Reasoning [41.278682336342165]
S3-Benchは,アクティブな探索による空間質問応答をストリーミングするベンチマークスイートである。 S3-Benchはデュアルドメイン設計を採用し、スケーラブルなシミュレータと制御可能な軌道と探索動作を組み合わせた。提案手法は,S3-Evalのシミュレーションおよび実分割において,それぞれ8.8%と13.3%の改善をもたらす。
論文参考訳（メタデータ） (2026-03-25T02:45:03Z)
Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence [70.2803680525165]
我々は、明示的な証拠をビデオ推論に統合する非エージェントフレームワークであるOpen-o3 Videoを紹介した。このモデルは、キーオブジェクトとバウンディングボックスをその答えとともに強調し、推論を具体的な視覚的な観察で基礎付けることができる。 V-STARベンチマークでは、Open-o3 Videoは最先端のパフォーマンスを達成し、mAMを14.4%、mLタイムスタンプを24.2%向上させた。
論文参考訳（メタデータ） (2025-10-23T14:05:56Z)
EVA02-AT: Egocentric Video-Language Understanding with Spatial-Temporal Rotary Positional Embeddings and Symmetric Optimization [17.622013322533423]
EVA02-ATは、エゴセントリックなビデオ理解タスクに適した、EVA02ベースのビデオ言語基盤モデルのスイートである。 EVA02-ATは、画像ベースのCLIPモデルをシングルステージプレトレーニングを介して、統一ビデオエンコーダに効率的に転送する。我々は,Symmetric Multi-Similarity(SMS)損失と,正と負のペアに対してすべてのソフトラベルを前進させる新しいトレーニングフレームワークを導入する。
論文参考訳（メタデータ） (2025-06-17T09:51:51Z)
Improved Video VAE for Latent Video Diffusion Model [55.818110540710215]
ビデオオートエンコーダ(VAE)は、ピクセルデータを低次元の潜在空間に圧縮することを目的としており、OpenAIのSoraで重要な役割を果たしている。既存のVAEのほとんどは、時間空間圧縮のために3次元因果構造に事前訓練された画像VAEを注入する。ビデオVAE(IV-VAE)をさらに改善するための新しいKTCアーキテクチャとGCConvモジュールを提案する。
論文参考訳（メタデータ） (2024-11-10T12:43:38Z)
PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning [78.23573511641548]
視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算とデータリソースを必要とする。本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。
論文参考訳（メタデータ） (2024-04-25T19:29:55Z)
SpVOS: Efficient Video Object Segmentation with Triple Sparse Convolution [18.332130780309797]
本研究は,ビデオオブジェクト分割フレームワーク全体の計算コストを削減するために,新しい3重スパース畳み込みを開発した。 DAVISとYoutube-VOSを含む2つの主流VOSデータセットで実験が行われる。その結果,提案するSpVOSは,他の最先端スパース手法よりも優れた性能を示し,同等の性能を維持していることがわかった。
論文参考訳（メタデータ） (2023-10-23T17:21:33Z)
Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文参考訳（メタデータ） (2022-10-13T08:15:08Z)
AdaFocusV3: On Unified Spatial-temporal Dynamic Video Recognition [44.10959567844497]
本稿では,最近提案されたAdaFocusV2アルゴリズム上での時空間力学の統一的な定式化について検討する。 AdaFocusV3は、未分化の収穫操作を深い特徴の計算で近似することにより、効果的に訓練することができる。
論文参考訳（メタデータ） (2022-09-27T15:30:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。