Fugu-MT 論文翻訳(概要): Omniview-Tuning: Boosting Viewpoint Invariance of Vision-Language Pre-training Models

論文の概要: Omniview-Tuning: Boosting Viewpoint Invariance of Vision-Language Pre-training Models

arxiv url: http://arxiv.org/abs/2404.12139v1
Date: Thu, 18 Apr 2024 12:41:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-19 12:31:46.728187
Title: Omniview-Tuning: Boosting Viewpoint Invariance of Vision-Language Pre-training Models
Title（参考訳）: Omniview-Tuning:ビジョンランゲージ事前学習モデルの視点不変性向上
Authors: Shouwei Ruan, Yinpeng Dong, Hanqing Liu, Yao Huang, Hang Su, Xingxing Wei,
Abstract要約: 100万以上のオブジェクトに対して400万以上のマルチビューイメージテキストペアのデータセットを構築します。我々はOmniview-Tuning(OVT)と呼ばれる新しい微調整フレームワークを設計する。 OVTは、ミニマックスのような最適化戦略を通じて、クロスポイントアライメントの目標を導入する。
参考スコア（独自算出の注目度）: 32.83187649097727
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language Pre-training (VLP) models like CLIP have achieved remarkable success in computer vision and particularly demonstrated superior robustness to distribution shifts of 2D images. However, their robustness under 3D viewpoint variations is still limited, which can hinder the development for real-world applications. This paper successfully addresses this concern while keeping VLPs' original performance by breaking through two primary obstacles: 1) the scarcity of training data and 2) the suboptimal fine-tuning paradigms. To combat data scarcity, we build the Multi-View Caption (MVCap) dataset -- a comprehensive collection of over four million multi-view image-text pairs across more than 100K objects, providing more potential for VLP models to develop generalizable viewpoint-invariant representations. To address the limitations of existing paradigms in performance trade-offs and training efficiency, we design a novel fine-tuning framework named Omniview-Tuning (OVT). Specifically, OVT introduces a Cross-Viewpoint Alignment objective through a minimax-like optimization strategy, which effectively aligns representations of identical objects from diverse viewpoints without causing overfitting. Additionally, OVT fine-tunes VLP models in a parameter-efficient manner, leading to minimal computational cost. Extensive experiments on various VLP models with different architectures validate that OVT significantly improves the models' resilience to viewpoint shifts and keeps the original performance, establishing a pioneering standard for boosting the viewpoint invariance of VLP models.
Abstract（参考訳）: CLIPのようなVLP(Vision-Language Pre-Training)モデルはコンピュータビジョンにおいて顕著な成功を収め、特に2D画像の分布シフトに対して優れたロバスト性を示している。しかし、3次元視点の違い下でのロバスト性はまだ限られており、現実のアプリケーションの開発を妨げる可能性がある。本稿では,2つの障害を突破することで,VLPの本来の性能を維持しながら,この問題に対処する。 1【トレーニングデータの不足】 2)準最適微調整パラダイム。データ不足に対処するため、Multi-View Caption(MVCap)データセットを構築しました。これは100万以上のオブジェクトにまたがる400万以上のマルチビューイメージテキストペアの包括的なコレクションです。そこで我々は,Omniview-Tuning(OVT)という新たな微調整フレームワークを設計した。具体的には、OVTは、ミニマックスのような最適化戦略により、オーバーフィッティングを引き起こすことなく、様々な視点から同一のオブジェクトの表現を効果的に整合させるクロスビューアライメントの目的を導入する。さらに、OVTはパラメータ効率のよいVLPモデルを微調整し、計算コストを最小化する。異なるアーキテクチャを持つ様々なVLPモデルの大規模な実験により、OVTは視点シフトに対するモデルのレジリエンスを著しく改善し、元の性能を維持し、VLPモデルの視点不変性を高めるための先駆的な標準を確立した。

関連論文リスト

EdgeVLA: Efficient Vision-Language-Action Models [0.4005096060512278]
本稿では,VLA(Vision-Language-Action)モデルの推論速度を大幅に向上する新しい手法であるEdge VLAを紹介する。 1)エンドエフェクタ位置予測の自己回帰要求を排除し,推論の7倍の高速化を実現し,2)小言語モデル(SLM)の効率を向上する。我々の初期の結果は、EVLAがOpenVLAに匹敵するトレーニング特性を達成し、推論速度とメモリ効率を大幅に向上させることを示した。
論文参考訳（メタデータ） (2025-07-18T16:15:09Z)
MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
Vision-Centric Representation-Efficient Fine-Tuning for Robust Universal Foreground Segmentation [5.326302374594885]
前景のセグメンテーションはシーン理解に不可欠であるが、視覚基盤モデル(VFM)のパラメータ効率の良い微調整(PEFT)は複雑なシナリオでしばしば失敗する。 LSR-ST(Ladder Shape-bias Representation Side-tuning)を提案する。
論文参考訳（メタデータ） (2025-04-20T04:12:38Z)
UniViTAR: Unified Vision Transformer with Native Resolution [37.63387029787732]
UniViTARは、視覚の統一性とネイティブ解像度のシナリオに適した、均質な視覚基盤モデルのファミリーである。 2つのコアメカニズムを戦略的に組み合わせたプログレッシブトレーニングパラダイムが導入された。並行して、ハイブリッドトレーニングフレームワークは、凍結教師モデルからの特徴蒸留に伴うシグモイドに基づくコントラスト損失をさらにシナジする。
論文参考訳（メタデータ） (2025-04-02T14:59:39Z)
PIP: Perturbation-based Iterative Pruning for Large Language Models [15.00536465178398]
PIP (Perturbation-based Iterative Pruning) は,大規模言語モデルを最適化する新しい二重ビュー構造化プルーニング手法である。勾配差の計算により、PIPはこれらの2つの見解の区別に苦慮している人たちを反復的に引き起こす。実験の結果,PIPは元のモデルの精度の85%以上を維持しつつ,パラメータ数を約20%削減できることがわかった。
論文参考訳（メタデータ） (2025-01-25T17:10:50Z)
VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [63.27511432647797]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。 GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文参考訳（メタデータ） (2024-12-02T18:58:25Z)
Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2024-11-02T18:18:35Z)
ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文参考訳（メタデータ） (2024-10-23T11:31:06Z)
ED-ViT: Splitting Vision Transformer for Distributed Inference on Edge Devices [13.533267828812455]
本稿では,複数のエッジデバイスにまたがる複雑なモデルを効率的に実行するための新しいビジョントランスフォーマー分割フレームワークED-ViTを提案する。具体的には、Vision Transformerモデルをいくつかのサブモデルに分割し、各サブモデルはデータクラスの特定のサブセットを処理するように調整します。 3つのモデル構造を持つ5つのデータセットに対して広範な実験を行い、エッジデバイスにおける推論遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2024-10-15T14:38:14Z)
Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文参考訳（メタデータ） (2024-10-07T17:16:20Z)
ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文参考訳（メタデータ） (2024-09-23T17:47:59Z)
Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities [11.53488611812612]
近年のVision-Language(VL)モデルの進歩は、エッジデバイスへの展開への関心を喚起している。 We introduced EdgeVL, a novel framework that seamlessly integrates dual-modality knowledge distillation and Quantization-aware contrastive learning。私たちの研究は、エッジデプロイメントに大規模なVLモデルを適応するための最初の体系的な取り組みであり、複数のデータセットで最大15.4%の精度向上と、最大93倍のモデルサイズ削減を示している。
論文参考訳（メタデータ） (2024-03-07T21:34:40Z)
VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。 VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。 ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文参考訳（メタデータ） (2024-01-15T17:28:37Z)
Towards Viewpoint-Invariant Visual Recognition via Adversarial Training [28.424131496622497]
画像分類器の視点ロバスト性を改善するために,ビューポイント不変適応訓練(VIAT)を提案する。 VIATは最小限の最適化問題として定式化され、内部認識は多様な敵の視点を特徴付ける。一般化性能をさらに向上するため、分散共有戦略を導入する。
論文参考訳（メタデータ） (2023-07-16T07:55:42Z)
Position-guided Text Prompt for Vision-Language Pre-training [121.15494549650548]
本研究では,ビジョンランゲージ・プレトレーニングで訓練したクロスモーダルモデルの視覚的グラウンド化能力を高めるために,位置誘導型テキストプロンプト(PTP)パラダイムを提案する。 PTPは、与えられたブロック内のオブジェクトを予測したり、与えられたオブジェクトのブロックを後退させたりすることで、PTPが与えられた視覚的グラウンドタスクを補充するブランク問題に再構成する。 PTPはオブジェクト検出をベースとした手法で同等の結果を得るが、PTPがオブジェクト検出を破棄し、後続では不可能になるため、推論速度ははるかに速い。
論文参考訳（メタデータ） (2022-12-19T18:55:43Z)
Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文参考訳（メタデータ） (2022-10-03T09:54:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。