論文の概要: Multilingual Text-to-Image Person Retrieval via Bidirectional Relation Reasoning and Aligning
- arxiv url: http://arxiv.org/abs/2510.17685v1
- Date: Mon, 20 Oct 2025 16:01:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.51106
- Title: Multilingual Text-to-Image Person Retrieval via Bidirectional Relation Reasoning and Aligning
- Title(参考訳): 双方向関係推論とアライメントによる多言語テキスト・画像人物検索
- Authors: Min Cao, Xinyu Zhou, Ding Jiang, Bo Du, Mang Ye, Min Zhang,
- Abstract要約: 言語やモダリティ間のアライメントを学習するための双方向命令関係推論およびアライニングフレームワークBi-IRRAを提案する。
Bi-IRRA内において、双方向暗黙的関係推論モジュールは、マスクされた画像とテキストの双方向予測を可能にする。
提案手法は,すべての多言語TIPRデータセットに対して,新しい最先端結果を実現する。
- 参考スコア(独自算出の注目度): 81.43257201833154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image person retrieval (TIPR) aims to identify the target person using textual descriptions, facing challenge in modality heterogeneity. Prior works have attempted to address it by developing cross-modal global or local alignment strategies. However, global methods typically overlook fine-grained cross-modal differences, whereas local methods require prior information to explore explicit part alignments. Additionally, current methods are English-centric, restricting their application in multilingual contexts. To alleviate these issues, we pioneer a multilingual TIPR task by developing a multilingual TIPR benchmark, for which we leverage large language models for initial translations and refine them by integrating domain-specific knowledge. Correspondingly, we propose Bi-IRRA: a Bidirectional Implicit Relation Reasoning and Aligning framework to learn alignment across languages and modalities. Within Bi-IRRA, a bidirectional implicit relation reasoning module enables bidirectional prediction of masked image and text, implicitly enhancing the modeling of local relations across languages and modalities, a multi-dimensional global alignment module is integrated to bridge the modality heterogeneity. The proposed method achieves new state-of-the-art results on all multilingual TIPR datasets. Data and code are presented in https://github.com/Flame-Chasers/Bi-IRRA.
- Abstract(参考訳): テキスト・トゥ・イメージ・パーソン検索(TIPR)は、テキスト記述を用いて対象者を識別することを目的としており、モダリティの不均一性の課題に直面している。
それまでの研究は、国際的あるいは局所的なアライメント戦略を開発することで、この問題に対処しようと試みてきた。
しかし、大域的手法は典型的には細粒度のクロスモーダル差を見落としているのに対し、局所的手法は明示的な部分アライメントを探索するために事前情報を必要とする。
加えて、現在の手法は英語中心であり、多言語文脈での応用を制限する。
これらの問題を緩和するために、我々は、多言語TIPRベンチマークを開発することで、多言語TIPRタスクを開拓した。
そこで我々は,言語やモダリティ間のアライメントを学習するための双方向インシシタンス関係推論およびアライジングフレームワークBi-IRRAを提案する。
Bi-IRRA内では、双方向の暗黙的関係推論モジュールがマスクされた画像とテキストの双方向予測を可能にし、言語とモダリティ間の局所関係のモデリングを暗黙的に強化し、多次元のグローバルアライメントモジュールを統合し、モダリティの不均一性をブリッジする。
提案手法は,すべての多言語TIPRデータセットに対して,新しい最先端結果を実現する。
データとコードはhttps://github.com/Flame-Chasers/Bi-IRRAで表示される。
関連論文リスト
- Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - CL2CM: Improving Cross-Lingual Cross-Modal Retrieval via Cross-Lingual
Knowledge Transfer [23.58317401302547]
本稿では,言語間移動を用いた視覚と対象言語間のアライメントを改善する汎用フレームワークCL2CMを提案する。
提案手法は,Multi30KとMSCOCOの2つの多言語画像テキストデータセットと,ビデオテキストデータセットVATEXである。
論文 参考訳(メタデータ) (2023-12-14T14:29:53Z) - Embedded Heterogeneous Attention Transformer for Cross-lingual Image Captioning [36.14667941845198]
言語横断的なイメージキャプションは、言語横断的障害とモーダル横断的障害の両方に対処する必要がある課題である。
画像と異なる言語間のドメイン間関係を確立するために,組込み不均一注意変換器(EHAT)を提案する。
MSCOCOデータセットを用いた英語と中国語のキャプション生成手法の評価を行った。
論文 参考訳(メタデータ) (2023-07-19T11:35:21Z) - Cross-Align: Modeling Deep Cross-lingual Interactions for Word Alignment [63.0407314271459]
提案したCross-Alignは、5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成する。
実験の結果,提案したCross-Alignは5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成することがわかった。
論文 参考訳(メタデータ) (2022-10-09T02:24:35Z) - Revamping Multilingual Agreement Bidirectionally via Switched
Back-translation for Multilingual Neural Machine Translation [107.83158521848372]
マルチリンガル・コンセンサス(MA)は、マルチリンガル・ニューラル・マシン翻訳(MNMT)の重要性を示した
textbfBidirectional textbfMultilingual textbfAgreement via textbfSwitched textbfBack-textbftranslation (textbfBMA-SBT)
これは、訓練済みのMNMTモデルを微調整するための、新規で普遍的な多言語合意フレームワークである。
論文 参考訳(メタデータ) (2022-09-28T09:14:58Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。