論文の概要: Towards Generalized Multimodal Homography Estimation
- arxiv url: http://arxiv.org/abs/2603.03956v1
- Date: Wed, 04 Mar 2026 11:35:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.281889
- Title: Towards Generalized Multimodal Homography Estimation
- Title(参考訳): 一般化マルチモーダルホログラフィー推定に向けて
- Authors: Jinkun You, Jiaxin Cheng, Jie Zhang, Yicong Zhou,
- Abstract要約: 教師なしと教師なしのホモグラフィー推定法は、精度を高めるために特定のモダリティに合わせて調整された画像対に依存する。
本研究では,1つの入力画像から接地トラスオフセットと不整合な画像ペアを生成する訓練データ合成手法を提案する。
われわれのアプローチでは、画像のペアを様々なテクスチャと色で表現し、その構造情報を保存している。
- 参考スコア(独自算出の注目度): 43.13726458321087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised and unsupervised homography estimation methods depend on image pairs tailored to specific modalities to achieve high accuracy. However, their performance deteriorates substantially when applied to unseen modalities. To address this issue, we propose a training data synthesis method that generates unaligned image pairs with ground-truth offsets from a single input image. Our approach renders the image pairs with diverse textures and colors while preserving their structural information. These synthetic data empower the trained model to achieve greater robustness and improved generalization across various domains. Additionally, we design a network to fully leverage cross-scale information and decouple color information from feature representations, thus improving estimation accuracy. Extensive experiments show that our training data synthesis method improves generalization performance. The results also confirm the effectiveness of the proposed network.
- Abstract(参考訳): 教師なしと教師なしのホモグラフィー推定法は、精度を高めるために特定のモダリティに合わせて調整された画像対に依存する。
しかし、その性能は目に見えないモダリティに適用すると著しく低下する。
この問題に対処するために,単一入力画像から接地トラスオフセットと不整合画像ペアを生成するトレーニングデータ合成手法を提案する。
われわれのアプローチでは、画像のペアを様々なテクスチャと色で表現し、その構造情報を保存している。
これらの合成データにより、トレーニングされたモデルにより、より堅牢性を達成し、様々な領域にわたる一般化を改善することができる。
さらに、我々は、クロススケール情報を完全に活用し、特徴表現から色情報を分離するネットワークを設計し、推定精度を向上する。
大規模な実験により,我々のトレーニングデータ合成法は一般化性能を向上させることが示された。
また,提案手法の有効性も確認した。
関連論文リスト
- Infusing fine-grained visual knowledge to Vision-Language Models [5.487134463783365]
大規模コントラスト学習による視覚・言語モデル(VLM)の作成
本稿では,VLMの広義マルチモーダル知識の細粒度ドメイン適応と保持の最適バランスを実現するための微調整手法を提案する。
特に微調整時にテキストデータや元のテキストエンコーダを使わずに、視覚的テキストアライメントを維持する。
論文 参考訳(メタデータ) (2025-08-16T19:12:09Z) - Boosting Zero-shot Stereo Matching using Large-scale Mixed Images Sources in the Real World [8.56549004133167]
ステレオマッチング法は、密度の高いピクセル単位の基底真理ラベルに依存している。
ラベル付きデータの不足と、合成画像と実世界の画像のドメインギャップは、注目すべき課題である。
視覚基盤モデルと大規模混合画像ソースの両方を活用する新しいフレームワーク textbfBooSTer を提案する。
論文 参考訳(メタデータ) (2025-05-13T14:24:38Z) - Adversarial Semantic Augmentation for Training Generative Adversarial Networks under Limited Data [27.27230943686822]
本稿では,画像レベルではなくセマンティックレベルでトレーニングデータを拡大するために,敵対的セマンティック拡張(ASA)手法を提案する。
本手法は, 各種データ構造下での合成品質を継続的に改善する。
論文 参考訳(メタデータ) (2025-02-02T13:50:38Z) - GenMix: Effective Data Augmentation with Generative Diffusion Model Image Editing [60.101097709212716]
本稿では、一般化可能なプロンプト誘導型生成データ拡張手法であるGenMixを紹介する。
本手法は、画像編集を利用して、カスタム条件付きプロンプトに基づく拡張画像を生成する。
提案手法は、非現実的な画像とラベルの曖昧さを緩和し、結果のモデルの性能と対角的堅牢性を向上する。
論文 参考訳(メタデータ) (2024-12-03T10:45:34Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。