Fugu-MT 論文翻訳(概要): JSSFF: A Joint Structural-Semantic Fusion Framework for Remote Sensing Image Captioning

論文の概要: JSSFF: A Joint Structural-Semantic Fusion Framework for Remote Sensing Image Captioning

arxiv url: http://arxiv.org/abs/2604.24031v1
Date: Mon, 27 Apr 2026 04:34:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-28 17:12:07.73799
Title: JSSFF: A Joint Structural-Semantic Fusion Framework for Remote Sensing Image Captioning
Title（参考訳）: JSSFF:リモートセンシング画像キャプチャのための統合構造意味融合フレームワーク
Authors: Swadhin Das, Vivek Yadav,
Abstract要約: 本研究では,原画像とそのエッジ認識バージョンをエンコーダに組み込んだエッジ認識融合手法を提案する。比較ベースビームサーチ(CBBS)を用いてキャプションを生成し,定量的指標と定性的キャプション関連性のバランスの取れたトレードオフを実現する。
参考スコア（独自算出の注目度）: 1.8600174790635
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The encoder-decoder framework has become widely popular nowadays. In this model, the encoder extracts informative visual features from an input image, and the decoder employs a sequence-to-sequence formulation to generate the corresponding textual description from these features. The existing models focus more on the decision part. However, extracting meaningful information from the image can help the decoder generate an accurate caption by providing information about the objects and their relationship. Remote sensing images are highly complex. One major challenge is detecting objects that extend beyond their visible boundaries due to occlusion, overlapping structures, and unclear edges. Hence, there is a need to design an approach that can effectively capture both high-level semantics and low-level spatial details for accurate caption generation. In this work, we have proposed an edge-aware fusion method by incorporating the original image and its edge-aware version into the encoder to enhance feature representation and boundary awareness. We used a comparison-based beam search (CBBS) to generate captions to achieve a balanced trade-off between quantitative metrics and qualitative caption relevance through fairness-based comparison of candidate captions. Experimental results demonstrate our model's superiority over several baseline models in quantitative and qualitative perspectives.
Abstract（参考訳）: エンコーダ/デコーダフレームワークは近年広く普及している。このモデルにおいて、エンコーダは入力画像から情報的視覚特徴を抽出し、デコーダはシーケンス・ツー・シーケンスの定式化を用いてこれらの特徴から対応するテキスト記述を生成する。既存のモデルは、決定部分にもっと焦点を合わせます。しかし、画像から意味のある情報を抽出することで、デコーダは、オブジェクトとその関係に関する情報を提供することで、正確なキャプションを生成することができる。リモートセンシング画像は非常に複雑である。 1つの大きな課題は、閉塞、重なり合う構造、不明瞭な縁によって、目に見える境界を越えて広がる物体を検出することである。したがって、高精度なキャプション生成のために、高レベルのセマンティクスと低レベルの空間的詳細の両方を効果的にキャプチャできるアプローチを設計する必要がある。本研究では,特徴表現と境界認識を高めるために,原画像とそのエッジ認識バージョンをエンコーダに組み込んだエッジ認識融合手法を提案する。比較ベースビームサーチ (CBBS) を用いて, 定量的指標と定性的キャプション関連性のバランスの取れたトレードオフを実現するために, 候補キャプションの公平度に基づく比較を行った。実験により, 定量的および定性的な観点から, モデルがいくつかのベースラインモデルよりも優れていることを示す。

関連論文リスト

Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文参考訳（メタデータ） (2025-09-26T07:11:55Z)
Good Representation, Better Explanation: Role of Convolutional Neural Networks in Transformer-Based Remote Sensing Image Captioning [0.6499759302108925]
リモートセンシング画像キャプチャ(RSIC)における12種類の畳み込みニューラルネットワーク(CNN)アーキテクチャをトランスフォーマーベースのエンコーダフレームワーク内で体系的に評価し,その有効性を評価する。その結果,キャプション性能向上におけるエンコーダ選択の重要性が強調され,特定のCNNアーキテクチャがリモートセンシング画像に対して生成した記述の品質を著しく向上させることが示された。
論文参考訳（メタデータ） (2025-02-22T05:36:28Z)
MsEdF: A Multi-stream Encoder-decoder Framework for Remote Sensing Image Captioning [2.435006380732194]
リモートセンシング画像には複雑な空間パターンや意味構造が含まれており、キャプションモデルを正確に記述することは困難である。空間表現と言語生成の両方を最適化することにより、RSICの性能を向上させる新しいマルチストリームデコーダフレームワーク(MsEdF)を提案する。 3つのベンチマークRSICデータセットの実験は、MsEdFがいくつかのベースラインモデルより優れていることを示している。
論文参考訳（メタデータ） (2025-02-13T12:54:13Z)
DiffCut: Catalyzing Zero-Shot Semantic Segmentation with Diffusion Features and Recursive Normalized Cut [55.21950038225407]
ファンデーションモデルは、言語、ビジョン、マルチモーダルタスクなど、さまざまな領域にまたがる強力なツールとして登場した。本稿では,拡散UNetエンコーダを基礎ビジョンエンコーダとして使用し,教師なしゼロショットセグメンテーション手法であるDiffCutを紹介する。我々の研究は、拡散UNetエンコーダに埋め込まれた極めて正確なセマンティック知識を強調し、下流タスクの基盤ビジョンエンコーダとして機能する。
論文参考訳（メタデータ） (2024-06-05T01:32:31Z)
Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文参考訳（メタデータ） (2024-05-21T18:02:07Z)
Attribute-Aware Deep Hashing with Self-Consistency for Large-Scale Fine-Grained Image Retrieval [65.43522019468976]
本稿では属性認識ハッシュコードを生成するための自己整合性を持つ属性認識ハッシュネットワークを提案する。本研究では,高レベル属性固有ベクトルを教師なしで蒸留する再構成タスクのエンコーダ・デコーダ構造ネットワークを開発する。我々のモデルは,これらの属性ベクトルに特徴デコリレーション制約を設けて,それらの代表的能力を強化する。
論文参考訳（メタデータ） (2023-11-21T08:20:38Z)
Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文参考訳（メタデータ） (2023-11-06T18:33:24Z)
Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。 ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文参考訳（メタデータ） (2023-06-23T19:24:48Z)
Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文参考訳（メタデータ） (2022-06-16T07:56:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。