論文の概要: Parallax to Align Them All: An OmniParallax Attention Mechanism for Distributed Multi-View Image Compression
- arxiv url: http://arxiv.org/abs/2603.03615v1
- Date: Wed, 04 Mar 2026 01:00:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.137641
- Title: Parallax to Align Them All: An OmniParallax Attention Mechanism for Distributed Multi-View Image Compression
- Title(参考訳): Parallax to Align Them All: An OmniParallax Attention Mechanism for Distributed Multi-View Image Compression
- Authors: Haotian Zhang, Feiyue Long, Yixin Yu, Jian Xue, Haocheng Tang, Tongda Xu, Zhenning Shi, Yan Wang, Siwei Ma, Jiaqi Zhang,
- Abstract要約: マルチビュー画像圧縮(MIC)は画像間相関を利用して高い圧縮効率を実現することを目的としている。
MICのサブフィールドとして、分散マルチビュー画像圧縮(DMIC)はMICに匹敵する性能を提供する。
DMICの既存の手法は、デコード中に異なるビュー間の相関関係の異なる度合いを見渡して、すべての画像を等しく扱うのが一般的である。
- 参考スコア(独自算出の注目度): 52.42761521262876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-view image compression (MIC) aims to achieve high compression efficiency by exploiting inter-image correlations, playing a crucial role in 3D applications. As a subfield of MIC, distributed multi-view image compression (DMIC) offers performance comparable to MIC while eliminating the need for inter-view information at the encoder side. However, existing methods in DMIC typically treat all images equally, overlooking the varying degrees of correlation between different views during decoding, which leads to suboptimal coding performance. To address this limitation, we propose a novel $\textbf{OmniParallax Attention Mechanism}$ (OPAM), which is a general mechanism for explicitly modeling correlations and aligned features between arbitrary pairs of information sources. Building upon OPAM, we propose a Parallax Multi Information Fusion Module (PMIFM) to adaptively integrate information from different sources. PMIFM is incorporated into both the joint decoder and the entropy model to construct our end-to-end DMIC framework, $\textbf{ParaHydra}$. Extensive experiments demonstrate that $\textbf{ParaHydra}$ is $\textbf{the first DMIC method}$ to significantly surpass state-of-the-art MIC codecs, while maintaining low computational overhead. Performance gains become more pronounced as the number of input views increases. Compared with LDMIC, $\textbf{ParaHydra}$ achieves bitrate savings of $\textbf{19.72%}$ on WildTrack(3) and up to $\textbf{24.18%}$ on WildTrack(6), while significantly improving coding efficiency (as much as $\textbf{65}\times$ in decoding and $\textbf{34}\times$ in encoding).
- Abstract(参考訳): マルチビュー画像圧縮(MIC)は画像間相関を利用して高圧縮効率を実現することを目的としており、3Dアプリケーションにおいて重要な役割を担っている。
MICのサブフィールドとして、分散マルチビュー画像圧縮(DMIC)は、エンコーダ側でビュー間の情報を不要にしながら、MICに匹敵するパフォーマンスを提供する。
しかし、DMICの既存の手法では、デコード中の異なるビュー間の相関関係を網羅し、全ての画像を等しく扱うのが一般的であり、それによって準最適符号化性能がもたらされる。
この制限に対処するために、任意の情報ソース間の相関関係と整合性を明示的にモデル化するための一般的なメカニズムである、$\textbf{OmniParallax Attention Mechanism}$ (OPAM)を提案する。
OPAMに基づくParallax Multi Information Fusion Module (PMIFM)を提案する。
PMIFMはジョイントデコーダとエントロピーモデルの両方に組み込まれ、エンドツーエンドのDMICフレームワークである$\textbf{ParaHydra}$を構築します。
大規模な実験により、$\textbf{ParaHydra}$は$\textbf{the first DMIC method}$は、計算オーバーヘッドを低く保ちながら最先端のMICコーデックを大幅に上回ることを示した。
インプットビューの数が増えるにつれて、パフォーマンスの向上がより顕著になる。
LDMICと比較して、$\textbf{ParaHydra}$はWildTrack(3)で$\textbf{19.72%}$、$\textbf{24.18%}$で$までビットレートの節約を実現している。
関連論文リスト
- $β$-CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment [53.42377319350806]
$-CLIPは、多言語テキスト条件のコントラスト学習フレームワークである。
$-CALは、この階層に固有のセマンティックオーバーラップに対処する。
$-CLIPは、高密度視覚言語対応のための堅牢で適応的なベースラインを確立する。
論文 参考訳(メタデータ) (2025-12-14T13:03:20Z) - Learning Hyperspectral Images with Curated Text Prompts for Efficient Multimodal Alignment [1.7188280334580195]
我々は、CLIPスタイルのコントラストトレーニングフレームワークを利用して、超スペクトルシーン理解のための視覚言語モデル(VLM)の最適化を試みる。
我々のフレームワークは、視覚バックボーンから凍結した大きな埋め込みモデルの潜在空間へのボクセルレベルの埋め込みをマッピングする。
提案手法は全パラメータの0.07パーセントしか更新していないが、最先端の性能が得られる。
論文 参考訳(メタデータ) (2025-09-20T23:23:04Z) - Simple yet Effective Semi-supervised Knowledge Distillation from Vision-Language Models via Dual-Head Optimization [47.38380084735716]
大規模な画像テキストペアで事前訓練された視覚教師付きモデル(VLM)は、顕著なゼロ/フェーショット性能を示した。
知識蒸留(KD)は、VLM能力を伝達するための自然な枠組みを提供するが、監督と蒸留の損失の間の勾配の衝突に悩まされる。
本稿では,異なる信号に対して2つの予測ヘッドを導入するDual-Head Optimization (DHO)を提案する。
論文 参考訳(メタデータ) (2025-05-12T15:39:51Z) - Towards Scalable Modeling of Compressed Videos for Efficient Action Recognition [6.168286187549952]
提案するハイブリッドなエンドツーエンドフレームワークは,3つの重要な概念にまたがって学習を分解し,推論コストを先行技術に対して330倍に削減する。
実験により,本手法は最先端のビデオ認識性能を実現する軽量なアーキテクチャを実現することが示された。
論文 参考訳(メタデータ) (2025-03-17T21:13:48Z) - UniF$^2$ace: A Unified Fine-grained Face Understanding and Generation Model [62.66515621965686]
本稿では,2次元離散拡散(D3Diff)損失を伴う新しい理論枠組みを導入し,離散的なスコアマッチング拡散を伴うマスク付き生成モデルを統一する。
このD3Diffは、テキスト入力に沿った高忠実度顔の詳細を合成するモデルの能力を大幅に向上させる。
提案するUniF$2$aceD-1Mは,130Kの微細な画像キャプチャ対と100Mの視覚的質問応答対からなる大規模データセットである。
論文 参考訳(メタデータ) (2025-03-11T07:34:59Z) - Uncovering Untapped Potential in Sample-Efficient World Model Agents [51.65485693709418]
Simulusは高度にモジュール化されたTBWMエージェントで、マルチモーダルトークン化フレームワーク、本質的なモチベーション、優先順位付けされたWMリプレイ、レグレッション・アズ・クラス化を統合している。
Simulusは3つの異なるベンチマークで、計画自由なWMに対して最先端のサンプル効率を達成する。
論文 参考訳(メタデータ) (2025-02-17T08:06:10Z) - I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models [50.34197948438868]
ThinkDiffは、マルチモーダルなインコンテキスト理解と推論機能を備えたテキストから画像への拡散モデルを強化するアライメントパラダイムである。
我々はThinkDiffの精度が19.2%から46.3%に大幅に向上したことを示す。
また、複数の画像やテキストを論理的に一貫性のある画像に合成する際、例外的な性能を示す。
論文 参考訳(メタデータ) (2025-02-12T05:30:08Z) - MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。
生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。
MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文 参考訳(メタデータ) (2024-12-27T02:39:50Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。
最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-08T10:47:24Z) - LDMIC: Learning-based Distributed Multi-view Image Coding [5.157089773775356]
マルチビュー画像圧縮は3D関連アプリケーションにおいて重要な役割を果たす。
既存の方法では、残りの情報だけでなく、対応する差分を圧縮するためにジョイントエンコーディングが必要である。
学習に基づく分散マルチビュー画像符号化フレームワークを設計する。
論文 参考訳(メタデータ) (2023-01-24T03:47:37Z) - MLIC: Multi-Reference Entropy Model for Learned Image Compression [28.63380127598021]
本稿では,マルチ参照エントロピーモデル(MEM)と高度なバージョンであるMEM$+$を提案する。
MEM と MEM$+$ に基づいて,画像圧縮モデル MLIC と MLIC$+$ を提案する。
我々のMLICとMLIC$+$モデルは最先端のパフォーマンスを実現し、PSNRで測定されたVTM-17.0と比較して、KodakデータセットのBDレートを8.05%、11.39%削減した。
論文 参考訳(メタデータ) (2022-11-14T11:07:18Z) - SCSNet: An Efficient Paradigm for Learning Simultaneously Image
Colorization and Super-Resolution [39.77987463287673]
画像のカラー化と超解像(SCS)を同時に行うための効率的なパラダイムを提案する。
提案手法は2つの部分から構成される: プラグアンドプレイのemphPyramid Valve Cross Attention (PVCAttn)モジュールを用いた色情報学習用カラー化ブランチ。
我々のSCSNetは、実用上よりフレキシブルな自動モードと参照モードの両方をサポートしている。
論文 参考訳(メタデータ) (2022-01-12T08:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。