Fugu-MT 論文翻訳(概要): Intra-Modal Neighbors Never Lie: Rectifying Inter-Modal Noisy Correspondence via Graph-Based Intra-Modal Reasoning

論文の概要: Intra-Modal Neighbors Never Lie: Rectifying Inter-Modal Noisy Correspondence via Graph-Based Intra-Modal Reasoning

arxiv url: http://arxiv.org/abs/2606.04061v1
Date: Tue, 02 Jun 2026 12:26:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-04 20:44:18.278788
Title: Intra-Modal Neighbors Never Lie: Rectifying Inter-Modal Noisy Correspondence via Graph-Based Intra-Modal Reasoning
Title（参考訳）: グラフに基づくモーダル内推論によるモーダル間雑音応答の抑制
Authors: Yang Liu, Wentao Feng, Shu-Dong Huang, Yalan Ye, Jiancheng Lv,
Abstract要約: 大規模ウェブハーベストデータセットは、クロスモーダル検索の進展を加速させているが、必然的にノイズ対応に悩まされている。 In-modal Neighbor-aware Noise Rectification (IN2R) という新しい枠組みを提案する。
参考スコア（独自算出の注目度）: 35.81581893839085
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale web-harvested datasets have fueled the progress of cross-modal retrieval but inevitably suffer from noisy correspondence, which severely degrades model generalization. Existing methods primarily address this by filtering out noise or seeking a substitute label, yet they predominantly remain bound by a "Discrete Selection" paradigm. We argue that relying on a single discrete proxy induces Single-Point Fragility and Discretization Error. To overcome these limitations, we propose a novel framework, Intra-modal Neighbor-aware Noise Rectification (IN2R), which shifts the paradigm from searching for a substitute to synthesizing a reliable supervision target. Leveraging the intrinsic geometric stability of intra-modal data, IN2R employs a Graph Refiner to perform relational reasoning over neighbors retrieved from a dynamic Cross-Model Memory. Instead of propagating discrete labels, our method synthesizes a continuous, soft prototype that reflects the consensus of the local semantic neighborhood, effectively rectifying inter-modal misalignment. Extensive experiments on Flickr30K, MS-COCO, and CC152K demonstrate that IN2R significantly outperforms state-of-the-art methods. Our code and pre-trained models are publicly available at https://github.com/liuyyy111/IN2R.
Abstract（参考訳）: 大規模ウェブハーベストデータセットは、クロスモーダル検索の進展を加速させているが、必然的にノイズ対応に悩まされ、モデル一般化が著しく低下している。既存の手法は主にノイズを除去したり、代替ラベルを求めることでこの問題に対処するが、それらは主に「離散選択」パラダイムによって拘束される。単一の離散プロキシに依存すると、単一ポイントの脆弱性と離散化エラーが発生する、と我々は主張する。これらの制約を克服するため、我々は、代替品の探索から信頼性の高い監視対象の合成へとパラダイムをシフトさせる新しい枠組み、Intra-modal Neighbor-aware Noise Rectification (IN2R)を提案する。モーダル内データの内在的幾何学的安定性を活用して、IN2Rは、動的クロスモデルメモリから取得した隣人に対するリレーショナル推論を行うグラフリファイナを使用する。離散ラベルを伝搬する代わりに,局所的なセマンティック・エリアのコンセンサスを反映したソフトな連続プロトタイプを合成し,モーダル間ミスアライメントを効果的に補正する。 Flickr30K、MS-COCO、CC152Kの大規模な実験は、IN2Rが最先端の手法を著しく上回ることを示した。私たちのコードと事前トレーニングされたモデルは、https://github.com/liuyy111/IN2R.comで公開されています。

関連論文リスト

Provable Sparse Inversion and Token Relabel Enhanced One-shot Federated Learning with ViTs [77.42033827176806]
ワンショットフェデレートラーニング(One-Shot Federated Learning)は、単一のコミュニケーションラウンドでグローバルモデルを学ぶ中央サーバが、有望なパラダイムとして登場したものだ。本稿では,合成画像の全パッチをフル活用してグローバルモデルをトレーニングする,新しいフェデレーションモデルインバージョンとトークンリラベルフレームワークを提案する。
論文参考訳（メタデータ） (2026-05-11T15:49:08Z)
Chain of Modality: From Static Fusion to Dynamic Orchestration in Omni-MLLMs [84.3271821505699]
カオス・オブ・モダリティ(Chain of Modality, CoM)は、マルチモーダル融合を受動的結合から動的オーケストレーションに移行するエージェントフレームワークである。 CoMはトレーニングフリーまたはデータ効率のSFT設定で動作し、様々なベンチマークで堅牢で一貫した一般化を実現する。
論文参考訳（メタデータ） (2026-04-16T01:21:14Z)
Neighbor-aware Instance Refining with Noisy Labels for Cross-Modal Retrieval [12.062625455647265]
CMR(Cross-Modal Retrieval)はマルチモーダル解析の分野で大きな進歩を遂げている。 CMR法は、モデル性能天井、校正信頼性、データ利用率を同時に満たさないことが多い。我々は,Nighbor-aware Instance Refining with Noisy Labels (NIRNL) という,より堅牢なクロスモーダル学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-12-30T08:19:07Z)
SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models [53.19726629537694]
ビデオ生成モデルと人間の好みのトレーニング後のアライメントは、重要な目標である。現在のデータ収集パラダイムは、プロンプト内のペアワイズアノテーションに依存しており、ノイズのラベル付けに悩まされている。ビデオRMトレーニングのための体系的フレームワークであるSoliRewardを提案する。
論文参考訳（メタデータ） (2025-12-17T14:28:23Z)
Ivan-ISTD: Rethinking Cross-domain Heteroscedastic Noise Perturbations in Infrared Small Target Detection [53.689841037081834]
Ivan-ISTD は ISTD におけるクロスドメインシフトと異方性雑音摂動の2つの課題に対処するように設計されている。 Ivan-ISTDはクロスドメインシナリオにおいて優れた堅牢性を示している。
論文参考訳（メタデータ） (2025-10-14T07:48:31Z)
NeighborRetr: Balancing Hub Centrality in Cross-Modal Retrieval [15.409022911063241]
NeighborRetrはハブの学習のバランスを保ち、様々な種類の隣人の関係を適応的に調整する新しい手法である。我々は、NeighborRetrが複数のクロスモーダル検索ベンチマークで最先端の結果を得ることを示す。
論文参考訳（メタデータ） (2025-03-13T16:33:55Z)
Robust Pseudo-label Learning with Neighbor Relation for Unsupervised Visible-Infrared Person Re-Identification [33.50249784731248]
UVI-ReID (unsupervised Visible-Infrared Person Re-identification) は、視覚的および赤外線モダリティにまたがる歩行者像をアノテーションなしでマッチングすることを目的としている。近年、擬似ラベル法はUSVI-ReIDにおいて主流となっているが、擬似ラベル法固有のノイズは大きな障害となる。我々は,雑音の多い擬似ラベルを補正するRPNRフレームワークを設計する。 SYSU-MM01とRegDBの2つの広く知られているベンチマークで実施された総合的な実験は、RPNRが現在最先端のGURを平均で上回っていることを実証している。
論文参考訳（メタデータ） (2024-05-09T08:17:06Z)
A Unified Optimal Transport Framework for Cross-Modal Retrieval with Noisy Labels [22.2715520667186]
クロスモーダル検索(CMR)は、異なるモーダル間の相互作用を確立することを目的としている。本研究は,ロバスト・クロスモーダル検索のための最適輸送(OT)に基づく統一フレームワークであるUTT-RCLを提案する。広範に使用されている3つのクロスモーダル検索データセットの実験は、我々のOT-RCLが最先端のアプローチを超越していることを示している。
論文参考訳（メタデータ） (2024-03-20T10:34:40Z)
Dynamic Weighted Combiner for Mixed-Modal Image Retrieval [8.683144453481328]
フレキシブル検索パラダイムとしてのMixed-Modal Image Retrieval (MMIR) が注目されている。以前のアプローチは常に2つの重要な要因のため、限られたパフォーマンスを達成する。以上の課題に対処するための動的重み付け結合器(DWC)を提案する。
論文参考訳（メタデータ） (2023-12-11T07:36:45Z)
DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions [52.63323657077447]
DNMOTは、複数のオブジェクト追跡のためのエンドツーエンドのトレーニング可能なDeNoising Transformerである。具体的には、トレーニング中にノイズを伴って軌道を拡大し、エンコーダ・デコーダアーキテクチャのデノイング過程をモデルに学習させる。我々はMOT17,MOT20,DanceTrackのデータセットについて広範な実験を行い,実験結果から,提案手法が従来の最先端手法よりも明確なマージンで優れていることが示された。
論文参考訳（メタデータ） (2023-09-09T04:40:01Z)
Attentive WaveBlock: Complementarity-enhanced Mutual Networks for Unsupervised Domain Adaptation in Person Re-identification and Beyond [97.25179345878443]
本稿では,新しい軽量モジュールであるAttentive WaveBlock (AWB)を提案する。 AWBは相互学習の二重ネットワークに統合され、相互学習の相補性を高め、擬似ラベルのノイズをさらに抑えることができる。実験により, 提案手法は, 複数のUDA人物再識別タスクを大幅に改善し, 最先端の性能を達成できることが実証された。
論文参考訳（メタデータ） (2020-06-11T15:40:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。