Fugu-MT 論文翻訳(概要): Multi-Spectral Image Stitching via Spatial Graph Reasoning

論文の概要: Multi-Spectral Image Stitching via Spatial Graph Reasoning

arxiv url: http://arxiv.org/abs/2307.16741v1
Date: Mon, 31 Jul 2023 15:04:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-01 13:52:12.762277
Title: Multi-Spectral Image Stitching via Spatial Graph Reasoning
Title（参考訳）: 空間グラフ推論によるマルチスペクトル画像スティッチ
Authors: Zhiying Jiang, Zengxi Zhang, Jinyuan Liu, Xin Fan, Risheng Liu
Abstract要約: 空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。同一のビュー位置から複数スケールの補完機能をノードに埋め込む。空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
参考スコア（独自算出の注目度）: 52.27796682972484
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-spectral image stitching leverages the complementarity between infrared and visible images to generate a robust and reliable wide field-of-view (FOV) scene. The primary challenge of this task is to explore the relations between multi-spectral images for aligning and integrating multi-view scenes. Capitalizing on the strengths of Graph Convolutional Networks (GCNs) in modeling feature relationships, we propose a spatial graph reasoning based multi-spectral image stitching method that effectively distills the deformation and integration of multi-spectral images across different viewpoints. To accomplish this, we embed multi-scale complementary features from the same view position into a set of nodes. The correspondence across different views is learned through powerful dense feature embeddings, where both inter- and intra-correlations are developed to exploit cross-view matching and enhance inner feature disparity. By introducing long-range coherence along spatial and channel dimensions, the complementarity of pixel relations and channel interdependencies aids in the reconstruction of aligned multi-view features, generating informative and reliable wide FOV scenes. Moreover, we release a challenging dataset named ChaMS, comprising both real-world and synthetic sets with significant parallax, providing a new option for comprehensive evaluation. Extensive experiments demonstrate that our method surpasses the state-of-the-arts.
Abstract（参考訳）: マルチスペクトル画像ステッチは、赤外線と可視画像の相補性を利用して、堅牢で信頼性の高い視野(FOV)シーンを生成する。この課題の主な課題は、マルチビューシーンの調整と統合のためのマルチスペクトル画像の関係を探ることである。特徴関係のモデル化におけるグラフ畳み込みネットワーク(gcns)の強みを活かし,多面的画像の変形と統合を異なる視点で効果的に行う空間的グラフ推論に基づく多面的画像縫い付け手法を提案する。これを実現するために、同じビュー位置から複数スケールの補完機能をノードの集合に埋め込む。異なる視点にまたがる対応は強力な密集した特徴埋め込みを通じて学習され、相互相関と内部特徴の相違を高めるために相互相関が開発された。空間的およびチャネル次元に沿って長距離コヒーレンスを導入することにより、画素関係とチャネル相互依存性の相補性は、アラインメントされたマルチビュー特徴の再構築を助け、情報的かつ信頼性の高いワイドフォブシーンを生成する。さらに,実世界と合成集合の両方からなるchamsという難易度の高いデータセットをリリースし,総合的な評価のための新しい選択肢を提供する。大規模な実験により,本手法が最先端技術を上回ることが示された。

関連論文リスト

MEAT: Multiview Diffusion Model for Human Generation on Megapixels with Mesh Attention [83.56588173102594]
1024x1024解像度でのトレーニングを可能にするメッシュアテンションというソリューションを導入しました。このアプローチは、クロスビュー一貫性を維持しながら、マルチビューアテンションの複雑さを著しく低減します。この基盤の上にメッシュアテンションブロックを設計し、キーポイント条件付けと組み合わせて、人間固有のマルチビュー拡散モデルMEATを作成します。
論文参考訳（メタデータ） (2025-03-11T17:50:59Z)
CrossModalityDiffusion: Multi-Modal Novel View Synthesis with Unified Intermediate Representation [0.5242869847419834]
CrossModalityDiffusion(クロスモダリティ・ディフュージョン)は、シーン幾何学の知識を必要とせず、様々なモダリティにまたがる画像を生成するために設計されたモジュラーフレームワークである。異なるモジュールを共同でトレーニングすることで、フレームワーク内のすべてのモダリティに対して一貫した幾何学的理解が保証されることを示す。合成ShapeNet車のデータセット上でのCrossModalityDiffusionの機能を検証する。
論文参考訳（メタデータ） (2025-01-16T20:56:32Z)
A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文参考訳（メタデータ） (2024-11-04T08:50:16Z)
Focus on Neighbors and Know the Whole: Towards Consistent Dense Multiview Text-to-Image Generator for 3D Creation [64.07560335451723]
CoSERは、テキストから3Dへの一貫した高密度テキスト・ツー・イメージ・ジェネレータである。隣人のビューコヒーレンスを巧みに学習することで効率と品質を両立させる。物理原理によって明確に定義された運動経路に沿って情報を集約し、詳細を洗練させる。
論文参考訳（メタデータ） (2024-08-23T15:16:01Z)
Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。 MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。 2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文参考訳（メタデータ） (2024-07-26T16:30:18Z)
Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文参考訳（メタデータ） (2024-04-11T03:00:00Z)
Learning multi-domain feature relation for visible and Long-wave Infrared image patch matching [39.88037892637296]
我々は、VL-CMIMと呼ばれる最大の可視・長波長赤外線画像パッチマッチングデータセットを提示する。さらに,マルチドメイン特徴関連学習ネットワーク(MD-FRN)を提案する。
論文参考訳（メタデータ） (2023-08-09T11:23:32Z)
Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth Estimation in Dynamic Scenes [51.20150148066458]
一般化されたマスクを必要とせず,ボリュームとして符号化された多視点と単眼のキューを融合させる新しい手法を提案する。実世界のデータセットを用いた実験は,提案手法の有効性と性能を実証する。
論文参考訳（メタデータ） (2023-04-18T13:55:24Z)
Cross-View Hierarchy Network for Stereo Image Super-Resolution [14.574538513341277]
ステレオ画像スーパーレゾリューションは、ビュー間の相補的な情報を活用することにより、高解像度ステレオ画像ペアの品質を向上させることを目的としている。ステレオ画像超解法(CVHSSR)のためのクロスビュー階層ネットワーク(Cross-View-Hierarchy Network)という新しい手法を提案する。 CVHSSRは、パラメータを減らしながら、他の最先端手法よりも最高のステレオ画像超解像性能を達成する。
論文参考訳（メタデータ） (2023-04-13T03:11:30Z)
Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文参考訳（メタデータ） (2020-03-15T11:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。