論文の概要: Efficient-LVSM: Faster, Cheaper, and Better Large View Synthesis Model via Decoupled Co-Refinement Attention
- arxiv url: http://arxiv.org/abs/2602.06478v1
- Date: Fri, 06 Feb 2026 08:11:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.293182
- Title: Efficient-LVSM: Faster, Cheaper, and Better Large View Synthesis Model via Decoupled Co-Refinement Attention
- Title(参考訳): 効率的なLVSM:デカップリング型コリファインメント・アテンションによる高速, チーパ, より優れた大画面合成モデル
- Authors: Xiaosong Jia, Yihang Sun, Junqi You, Songbur Wong, Zichen Zou, Junchi Yan, Zuxuan Wu, Yu-Gang Jiang,
- Abstract要約: Efficient-LVSMは、インプットビューにビュー内自己アテンションを適用し、ターゲットビューに自己テーマ横断アテンションを適用するデュアルストリームアーキテクチャである。
2つの入力ビューを持つRealEstate10Kでは29.86dBのPSNRを実現し、LVSMを0.2dBで上回り、2倍高速なトレーニングコンバージェンスと4.4倍高速な推論速度を実現している。
- 参考スコア(独自算出の注目度): 105.11288339285154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feedforward models for novel view synthesis (NVS) have recently advanced by transformer-based methods like LVSM, using attention among all input and target views. In this work, we argue that its full self-attention design is suboptimal, suffering from quadratic complexity with respect to the number of input views and rigid parameter sharing among heterogeneous tokens. We propose Efficient-LVSM, a dual-stream architecture that avoids these issues with a decoupled co-refinement mechanism. It applies intra-view self-attention for input views and self-then-cross attention for target views, eliminating unnecessary computation. Efficient-LVSM achieves 29.86 dB PSNR on RealEstate10K with 2 input views, surpassing LVSM by 0.2 dB, with 2x faster training convergence and 4.4x faster inference speed. Efficient-LVSM achieves state-of-the-art performance on multiple benchmarks, exhibits strong zero-shot generalization to unseen view counts, and enables incremental inference with KV-cache, thanks to its decoupled designs.
- Abstract(参考訳): 新規ビュー合成のためのフィードフォワードモデル(NVS)は、最近LVSMのようなトランスフォーマーベースの手法によって、全ての入力およびターゲットビューに注意を払って進歩している。
本研究では,その完全自己注意設計が準最適であり,入力ビュー数や不均一トークン間の剛性パラメータ共有の2次的複雑性に悩まされていることを論じる。
本稿では,これらの問題を分離したコリファインメント機構を用いて回避する2重ストリームアーキテクチャであるEfficient-LVSMを提案する。
インプットビューにビュー内自己注意、ターゲットビューにセルフテーマオーバーアテンションを適用し、不要な計算を不要にする。
LVSMは2つの入力ビューを持つRealEstate10K上で29.86dB PSNRを達成し、2倍高速なトレーニング収束と4.4倍高速な推論速度でLVSMを0.2dB超えた。
効率的なLVSMは、複数のベンチマークで最先端のパフォーマンスを実現し、目に見えないビュー数に対して強力なゼロショットの一般化を示し、分離された設計のおかげで、KV-cacheによるインクリメンタルな推論を可能にする。
関連論文リスト
- dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - AirCache: Activating Inter-modal Relevancy KV Cache Compression for Efficient Large Vision-Language Model Inference [11.73134417321505]
本稿では,LVLM推論の高速化を目的とした新しいKVキャッシュ圧縮手法であるAirCacheを提案する。
本手法は,視覚的KVキャッシュの10%を保ちながら,フルキャッシュに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-03-31T11:13:18Z) - Hymba: A Hybrid-head Architecture for Small Language Models [65.94140459055244]
Hymbaは、ハイブリッドヘッド並列アーキテクチャを特徴とする、小さな言語モデルのファミリーである。
重要な情報を保持するプロンプトに先立って,学習可能なメタトークンを導入する。
このモデルは、層間鍵値共有と部分的スライディングウィンドウアテンションを組み込むことにより、さらに最適化される。
論文 参考訳(メタデータ) (2024-11-20T19:51:25Z) - ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification [29.163757099307553]
大規模視覚言語モデル(LVLM)の効率は、プリフィルフェーズにおける注意機構の計算ボトルネックによって制約される。
本稿では,重要なトークンの動的比割り当て戦略を通じて,LVLM向けに設計された効率的な推論フレームワークZipVLを提案する。
論文 参考訳(メタデータ) (2024-10-11T07:24:21Z) - S2-Attention: Hardware-Aware Context Sharding Among Attention Heads [49.1454481007861]
スパースアテンションは、コンテキスト内のトークンのサブセットに選択的に出席する。
スパース・アテンションが今日の大規模言語モデルでモデルの品質を維持することができるかどうかは不明だ。
本稿では,Sparsely-Sharded(S2) attention, a Triton library that provide kernel optimization for sparse attention for sparse attention to customizable per-head and per-context-range levels。
論文 参考訳(メタデータ) (2024-07-25T00:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。