Fugu-MT 論文翻訳(概要): Cross-modal Fuzzy Alignment Network for Text-Aerial Person Retrieval and A Large-scale Benchmark

論文の概要: Cross-modal Fuzzy Alignment Network for Text-Aerial Person Retrieval and A Large-scale Benchmark

arxiv url: http://arxiv.org/abs/2603.20721v1
Date: Sat, 21 Mar 2026 09:02:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-24 19:11:39.05622
Title: Cross-modal Fuzzy Alignment Network for Text-Aerial Person Retrieval and A Large-scale Benchmark
Title（参考訳）: テキスト・エアリアル人物検索のためのクロスモーダルファジィアライメントネットワークと大規模ベンチマーク
Authors: Yifei Deng, Chenglong Li, Yuyang Zhang, Guyue Hu, Jin Tang,
Abstract要約: テキスト・エアリアル・パーソナリティ検索は、目撃者の記述からUAVが捉えた画像のターゲットを特定することを目的としている。 UAV撮像画像は、視角や飛行高度の急激な変化により、劣化した視覚情報に悩まされることが多い。本稿では, ファジィアライメントネットワークを新たに提案し, 高精度な粒度アライメントを実現する。
参考スコア（独自算出の注目度）: 25.298039211481044
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-aerial person retrieval aims to identify targets in UAV-captured images from eyewitness descriptions, supporting intelligent transportation and public security applications. Compared to ground-view text--image person retrieval, UAV-captured images often suffer from degraded visual information due to drastic variations in viewing angles and flight altitudes, making semantic alignment with textual descriptions very challenging. To address this issue, we propose a novel Cross-modal Fuzzy Alignment Network, which quantifies the token-level reliability by fuzzy logic to achieve accurate fine-grained alignment and incorporates ground-view images as a bridge agent to further mitigate the gap between aerial images and text descriptions, for text--aerial person retrieval. In particular, we design the Fuzzy Token Alignment module that employs the fuzzy membership function to dynamically model token-level association strength and suppress the influence of unobservable or noisy tokens. It can alleviate the semantic inconsistencies caused by missing visual cues and significantly enhance the robustness of token-level semantic alignment. Moreover, to further mitigate the gap between aerial images and text descriptions, we design a Context-Aware Dynamic Alignment module to incorporate the ground-view agent as a bridge in text--aerial alignment and adaptively combine direct alignment and agent-assisted alignment to improve the robustness. In addition, we construct a large-scale benchmark dataset called AERI-PEDES by using a chain-of-thought to decompose text generation into attribute parsing, initial captioning, and refinement, thus boosting textual accuracy and semantic consistency. Experiments on AERI-PEDES and TBAPR demonstrate the superiority of our method.
Abstract（参考訳）: テキスト・エアリアル・パーソナリティ検索は、目撃者の説明からUAVが捉えた画像のターゲットを特定し、インテリジェント・トランスポートと公共のセキュリティ・アプリケーションをサポートすることを目的としている。地上画像検索と比較して、UAVキャプチャ画像は視角や飛行高度の急激な変化により劣化した視覚情報に悩まされることが多く、テキスト記述とのセマンティックアライメントは非常に困難である。この問題に対処するために,ファジィ論理によるトークンレベルの信頼性を定量化して高精度な微粒化を実現するクロスモーダルファジィアライメントネットワークを提案する。特に,ファジィ・トークン・アライメント・モジュールを設計し,ファジィ・メンバシップ関数を用いてトークンレベルのアライメント強度を動的にモデル化し,観測不能なトークンやノイズのあるトークンの影響を抑制する。視覚的手がかりの欠如による意味的不整合を緩和し、トークンレベルのセマンティックアライメントの堅牢性を大幅に向上させることができる。さらに,航空画像とテキスト記述のギャップを緩和するために,地上視エージェントをブリッジとして組み込むコンテキスト認識動的アライメントモジュールを設計し,直接アライメントとエージェントアシストアライメントを適応的に組み合わせてロバスト性を向上させる。さらに、AERI-PEDESと呼ばれる大規模ベンチマークデータセットを構築し、テキスト生成を属性解析、初期キャプション、洗練に分解することで、テキストの精度とセマンティック一貫性を高める。 AERI-PEDESとTBAPRの実験は,本手法の優位性を実証している。

関連論文リスト

Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers [56.76198904599581]
テキストと画像の拡散モデルは、言語翻訳において優れているため、モーダル間の注意機構を通じて暗黙的に概念を基礎づける。近年のマルチモーダル拡散トランスフォーマーでは, 共用画像とテキストトークンを導入し, よりリッチでスケーラブルなクロスモーダルアライメントを実現している。 MM-DiTの注意構造を分析するための体系的フレームワークであるSeg4Diffを導入し,テキストから画像への意味情報の伝達方法に着目した。
論文参考訳（メタデータ） (2025-09-22T17:59:54Z)
ControlThinker: Unveiling Latent Semantics for Controllable Image Generation through Visual Reasoning [76.2503352325492]
ControlThinkerは、"Comprehend-then-generate"パラダイムを採用した、新しいフレームワークである。制御画像からの潜在セマンティクスは、テキストプロンプトを豊かにするためにマイニングされる。このリッチなセマンティック理解は、追加の複雑な修正を必要とせずに、画像生成をシームレスに支援する。
論文参考訳（メタデータ） (2025-06-04T05:56:19Z)
Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文参考訳（メタデータ） (2025-01-01T14:24:04Z)
Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。本稿では,AVGという自己回帰ボウケン生成手法を提案する。 AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文参考訳（メタデータ） (2024-07-24T13:39:51Z)
Dynamic Prompt Learning: Addressing Cross-Attention Leakage for Text-Based Image Editing [23.00202969969574]
そこで本稿では,テキストプロンプト中の名詞の正しい単語に注意を向けるために,クロスアテンションマップを強制する動的プロンプト学習(DPL)を提案する。本稿では,Word-Swap, Prompt Refinement, Attention Re-weightingの編集結果の改善について述べる。
論文参考訳（メタデータ） (2023-09-27T13:55:57Z)
Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文参考訳（メタデータ） (2023-07-21T13:06:02Z)
Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [12.057465578064345]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-18T08:23:46Z)
Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文参考訳（メタデータ） (2022-08-04T07:51:48Z)
Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文参考訳（メタデータ） (2021-02-23T07:20:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。