論文の概要: VVTRec: Radio Interferometric Reconstruction through Visual and Textual Modality Enrichment
- arxiv url: http://arxiv.org/abs/2601.06475v1
- Date: Sat, 10 Jan 2026 07:56:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.837912
- Title: VVTRec: Radio Interferometric Reconstruction through Visual and Textual Modality Enrichment
- Title(参考訳): VVTRec:視覚・テクスチュアル・モダリティ強化による電波干渉計再構成
- Authors: Kai Cheng, Ruoqi Wang, Qiong Luo,
- Abstract要約: VVTRecは可視光誘導型視覚・テキストモダリティ富化によるマルチモーダル無線干渉データ再構成手法である。
我々のVVTRecでは、スパース視認性は画像形式とテキスト形式に変換され、空間情報および意味情報の観点から拡張される。
実験により,VVTRecは過剰な計算オーバーヘッドを発生させることなく,マルチモーダル情報を活用することにより,画像の効率を効果的に向上することを示した。
- 参考スコア(独自算出の注目度): 10.224329769135139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Radio astronomy is an indispensable discipline for observing distant celestial objects. Measurements of wave signals from radio telescopes, called visibility, need to be transformed into images for astronomical observations. These dirty images blend information from real sources and artifacts. Therefore, astronomers usually perform reconstruction before imaging to obtain cleaner images. Existing methods consider only a single modality of sparse visibility data, resulting in images with remaining artifacts and insufficient modeling of correlation. To enhance the extraction of visibility information and emphasize output quality in the image domain, we propose VVTRec, a multimodal radio interferometric data reconstruction method with visibility-guided visual and textual modality enrichment. In our VVTRec, sparse visibility is transformed into image-form and text-form features to obtain enhancements in terms of spatial and semantic information, improving the structural integrity and accuracy of images. Also, we leverage Vision-Language Models (VLMs) to achieve additional training-free performance improvements. VVTRec enables sparse visibility, as a foreign modality unseen by VLMs, to accurately extract pre-trained knowledge as a supplement. Our experiments demonstrate that VVTRec effectively enhances imaging results by exploiting multimodal information without introducing excessive computational overhead.
- Abstract(参考訳): 電波天文学は遠方の天体を観測するのに必須の分野である。
可視性と呼ばれる電波望遠鏡からの電波信号の測定は、天文学的な観測のために画像に変換する必要がある。
これらの汚れた画像は、実際のソースとアーティファクトから情報を混ぜています。
したがって、天文学者は通常、よりクリーンな画像を得るために、イメージングの前に再構成を行う。
既存の手法では、スパース可視データの単一のモダリティのみを考慮し、結果、残ったアーティファクトを持つ画像と相関のモデル化が不十分である。
画像領域における視界情報の抽出と出力品質の向上を目的として,視界誘導型視覚・テキストモダリティ富化を用いたマルチモーダル無線干渉データ再構成手法であるVVTRecを提案する。
我々のVVTRecでは、スパース可視性は画像形式とテキスト形式に変換され、空間情報と意味情報の観点から拡張され、画像の構造的整合性と精度が向上する。
また、VLM(Vision-Language Models)を活用して、トレーニングなしのパフォーマンス向上を実現しています。
VVTRecは、VLMによって見つからない外国のモダリティとしてスパース視認を可能にし、訓練済みの知識をサプリメントとして正確に抽出する。
実験により,VVTRecは過剰な計算オーバーヘッドを発生させることなく,マルチモーダル情報を活用することにより,画像の効率を効果的に向上することを示した。
関連論文リスト
- Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Efficient Visual State Space Model for Image Deblurring [99.54894198086852]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
提案したEVSSMは、ベンチマークデータセットや実世界の画像に対する最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Learned radio interferometric imaging for varying visibility coverage [5.033436454106766]
様々な可視性カバレッジを学習した後処理とアンロールされた反復的再構成手法を開発した。
本稿では,これらの手法が可視性の範囲のばらつきを最小限から最小限の微調整なしで回避できるようにするためのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-14T20:56:05Z) - Image Restoration with Point Spread Function Regularization and Active
Learning [5.575847437953924]
大規模な天文学的な調査では、銀河や星雲を含む多数の天体の画像を捉えることができる。
様々なノイズレベルと点拡散関数は、これらの画像から情報抽出の精度と効率を損なう。
深層学習に基づく復元アルゴリズムと高忠実度望遠鏡シミュレータを接続する新しい画像復元アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-31T23:16:26Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z) - A Deep Learning Approach for SAR Tomographic Imaging of Forested Areas [10.477070348391079]
我々は,1つのフィードフォワードパスでトモグラフィインバージョンを実行するために,軽量ニューラルネットワークをトレーニング可能であることを示す。
我々は、シミュレーションデータを用いてエンコーダ・デコーダネットワークを訓練し、実LバンドとPバンドのデータに基づいてその手法を検証する。
論文 参考訳(メタデータ) (2023-01-20T14:34:03Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。