論文の概要: OSCAR: Optical-aware Semantic Control for Aleatoric Refinement in Sar-to-Optical Translation
- arxiv url: http://arxiv.org/abs/2601.06835v1
- Date: Sun, 11 Jan 2026 09:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.019315
- Title: OSCAR: Optical-aware Semantic Control for Aleatoric Refinement in Sar-to-Optical Translation
- Title(参考訳): OSCAR:Sar-to-Optical翻訳におけるアレータリックリファインメントのための光認識セマンティック制御
- Authors: Hyunseo Lee, Sang Min Kim, Ho Kyung Shin, Taeheon Kim, Woo-Jeoung Nam,
- Abstract要約: 新たなSAR-to-Optical(S2O)翻訳フレームワークが提案され、3つのコア技術コントリビューションが統合されている。
実験により,提案手法は最先端手法と比較して知覚的品質と意味的一貫性に優れることを示した。
- 参考スコア(独自算出の注目度): 12.055938312320402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic Aperture Radar (SAR) provides robust all-weather imaging capabilities; however, translating SAR observations into photo-realistic optical images remains a fundamentally ill-posed problem. Current approaches are often hindered by the inherent speckle noise and geometric distortions of SAR data, which frequently result in semantic misinterpretation, ambiguous texture synthesis, and structural hallucinations. To address these limitations, a novel SAR-to-Optical (S2O) translation framework is proposed, integrating three core technical contributions: (i) Cross-Modal Semantic Alignment, which establishes an Optical-Aware SAR Encoder by distilling robust semantic priors from an Optical Teacher into a SAR Student (ii) Semantically-Grounded Generative Guidance, realized by a Semantically-Grounded ControlNet that integrates class-aware text prompts for global context with hierarchical visual prompts for local spatial guidance; and (iii) an Uncertainty-Aware Objective, which explicitly models aleatoric uncertainty to dynamically modulate the reconstruction focus, effectively mitigating artifacts caused by speckle-induced ambiguity. Extensive experiments demonstrate that the proposed method achieves superior perceptual quality and semantic consistency compared to state-of-the-art approaches.
- Abstract(参考訳): SAR(Synthetic Aperture Radar)は、強靭な全天候撮影機能を提供するが、SAR観測を光リアルな光学画像に変換することは、根本的な問題である。
現在のアプローチは、しばしばSARデータの固有のスペックルノイズや幾何学的歪みによって妨げられ、しばしば意味的誤解、曖昧なテクスチャ合成、構造的幻覚をもたらす。
これらの制限に対処するため、新しいSAR-to-Optical(S2O)翻訳フレームワークが提案されている。
一 光学教師からSAR学生に頑健な意味を蒸留してSARエンコーダを確立するクロスモーダルセマンティックアライメント
セマンティック・グラウンドド・ジェネレーション・ガイダンス(Semantically-Grounded Generative Guidance)は、グローバルな文脈におけるクラス認識テキストプロンプトと局所的な空間誘導のための階層的視覚プロンプトを統合したセマンティック・グラウンドド・コントロールネットによって実現された。
三 不確かさを明示的にモデル化し、再建焦点を動的に調整し、スペックルによるあいまいさによるアーティファクトを効果的に緩和する不確実性認識目的
大規模実験により,提案手法は最先端手法と比較して知覚的品質と意味的一貫性に優れることを示した。
関連論文リスト
- Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding [54.05243949024302]
既存の堅牢なMLLMは、視覚エンコーダの一般化にのみ焦点をあてた暗黙のトレーニング/適応に依存している。
本稿では,構造的推論連鎖による視覚的劣化を明示的にモデル化する新しいフレームワークであるRobust-R1を提案する。
提案手法は, (i) 劣化を考慮した推論基盤の微調整, (ii) 劣化パラメータを正確に知覚するための報酬駆動アライメント, (iii) 劣化強度に適応した動的推論深度スケーリングの2つを統合した。
論文 参考訳(メタデータ) (2025-12-19T12:56:17Z) - INSIGHT: An Interpretable Neural Vision-Language Framework for Reasoning of Generative Artifacts [0.0]
現在の法医学システムは、現実世界の条件下で急速に低下している。
ほとんどの検出器は不透明物として機能し、なぜ画像が合成物としてフラグ付けされるのかについての知見はほとんど得られない。
本稿では,AI生成画像のロバスト検出と透過的説明のための統合フレームワークであるINSIGHTを紹介する。
論文 参考訳(メタデータ) (2025-11-27T11:43:50Z) - SRSR: Enhancing Semantic Accuracy in Real-World Image Super-Resolution with Spatially Re-Focused Text-Conditioning [59.013863248600046]
本稿では,空間的に再焦点を絞ったテキストコンディショニングを推論時に洗練する超解像フレームワークを提案する。
第二に,非接地画素に対するテキストの影響を選択的に回避し,幻覚を防ぐ空間的自由誘導機構を導入する。
論文 参考訳(メタデータ) (2025-10-26T05:03:55Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - SPHERE: Semantic-PHysical Engaged REpresentation for 3D Semantic Scene Completion [52.959716866316604]
カメラベース3Dセマンティックシーンコンプリート(SSC)は自動運転システムにおいて重要な課題である。
本稿では,SPHERE (Semantic-PHysical Engaged Representation) を提案する。
SPHEREは、意味情報と物理的情報の共同利用のためのボクセルとガウス表現を統合している。
論文 参考訳(メタデータ) (2025-09-14T09:07:41Z) - Accelerating 3D Photoacoustic Computed Tomography with End-to-End Physics-Aware Neural Operators [74.65171736966131]
光音響計算トモグラフィ(PACT)は、光コントラストと超音波分解能を組み合わせることで、光拡散限界を超える深部像を実現する。
現在の実装では、高密度トランスデューサアレイと長い取得時間を必要とし、臨床翻訳を制限している。
本研究では,センサ計測からボリューム再構成まで,逆音響マッピングを直接学習する物理認識モデルであるPanoを紹介する。
論文 参考訳(メタデータ) (2025-09-11T23:12:55Z) - Annotation-Free Open-Vocabulary Segmentation for Remote-Sensing Images [51.74614065919118]
本稿では,アノテーションのないRS画像のオープン語彙セグメンテーションのための最初のフレームワークであるSegEarth-OVを紹介する。
粗い特徴から高分解能空間の詳細を頑健に復元する普遍的なアップサンプラーであるSimFeatUpを提案する。
また、パッチ機能から固有のグローバルコンテキストを抽出するための、シンプルで効果的なグローバルバイアス緩和操作も提示する。
論文 参考訳(メタデータ) (2025-08-25T14:22:57Z) - CLUE: Leveraging Low-Rank Adaptation to Capture Latent Uncovered Evidence for Image Forgery Localization [35.73353140683283]
画像編集ツールや生成AIのアクセシビリティ向上は、視覚的に説得力のある偽造物の普及につながっている。
本稿では、その内部生成過程を利用して、最先端(SOTA)テキスト・画像合成モデルのメカニズムを再利用する。
本稿では,Low- Rank Adaptation (LoRA) を用いてパラメータ効率よく安定拡散3 (SD3) を法定特徴抽出器として構成するフレームワークであるCLUEを提案する。
論文 参考訳(メタデータ) (2025-08-10T16:22:30Z) - Quality-Aware Language-Conditioned Local Auto-Regressive Anomaly Synthesis and Detection [30.77558600436759]
ARAS(ARAS)は、言語条件付き自動回帰異常合成手法である。
トークンアンコールによる遅延編集によって、ローカルでテキスト指定の欠陥を通常の画像に注入する。
欠陥リアリズムを著しく強化し、きめ細かい材料テクスチャを保存し、合成された異常に対して連続的な意味制御を提供する。
論文 参考訳(メタデータ) (2025-08-05T15:07:32Z) - Unpaired Object-Level SAR-to-Optical Image Translation for Aircraft with Keypoints-Guided Diffusion Models [4.6570959687411975]
SAR画像を光学画像に変換することは、下流タスクの解釈とサポートを強化するための有望な解決策である。
本研究では,無人航空機のSAR-光画像変換のためのキーポイント誘導拡散モデル(KeypointDiff)を提案する。
論文 参考訳(メタデータ) (2025-03-25T16:05:49Z) - Generative Adversarial Networks for Synthesizing InSAR Patches [15.260123615399035]
GAN(Generative Adversarial Networks)は、光学的および実数値的なSAR強度画像間の画像翻訳タスクで一定の成功を収めている。
人工的複素数値InSAR画像スタックの合成は、知覚的品質に加えて、位相ノイズや位相コヒーレンスといったより厳密な品質指標を求める。
本稿では、生成CNN構造の信号処理モデルを提供し、それらの品質指標に影響を与える影響を説明し、与えられたCNN構造に対する複素数値データのマッピングスキームを示す。
論文 参考訳(メタデータ) (2020-08-03T20:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。