Fugu-MT 論文翻訳(概要): Cross-modal Active Complementary Learning with Self-refining Correspondence

論文の概要: Cross-modal Active Complementary Learning with Self-refining Correspondence

arxiv url: http://arxiv.org/abs/2310.17468v2
Date: Mon, 8 Jan 2024 02:20:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 22:36:33.415404
Title: Cross-modal Active Complementary Learning with Self-refining Correspondence
Title（参考訳）: 自己精製対応型クロスモーダルアクティブ補完学習
Authors: Yang Qin, Yuan Sun, Dezhong Peng, Joey Tianyi Zhou, Xi Peng, Peng Hu
Abstract要約: 既存手法のロバスト性を改善するために,クロスモーダルなロバスト補完学習フレームワーク(CRCL)を提案する。 ACLは、誤った監視を行うリスクを減らすために、アクティブで補完的な学習損失を利用する。 SCCは、モーメント補正を備えた複数の自己精製プロセスを使用して、対応を補正するために受容場を拡大する。
参考スコア（独自算出の注目度）: 54.61307946222386
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, image-text matching has attracted more and more attention from academia and industry, which is fundamental to understanding the latent correspondence across visual and textual modalities. However, most existing methods implicitly assume the training pairs are well-aligned while ignoring the ubiquitous annotation noise, a.k.a noisy correspondence (NC), thereby inevitably leading to a performance drop. Although some methods attempt to address such noise, they still face two challenging problems: excessive memorizing/overfitting and unreliable correction for NC, especially under high noise. To address the two problems, we propose a generalized Cross-modal Robust Complementary Learning framework (CRCL), which benefits from a novel Active Complementary Loss (ACL) and an efficient Self-refining Correspondence Correction (SCC) to improve the robustness of existing methods. Specifically, ACL exploits active and complementary learning losses to reduce the risk of providing erroneous supervision, leading to theoretically and experimentally demonstrated robustness against NC. SCC utilizes multiple self-refining processes with momentum correction to enlarge the receptive field for correcting correspondences, thereby alleviating error accumulation and achieving accurate and stable corrections. We carry out extensive experiments on three image-text benchmarks, i.e., Flickr30K, MS-COCO, and CC152K, to verify the superior robustness of our CRCL against synthetic and real-world noisy correspondences.
Abstract（参考訳）: 近年,画像テキストマッチングは,視覚的・テキスト的モダリティにまたがる潜在的対応を理解する上での基礎となる,学術・産業の注目を集めている。しかし、既存のほとんどの手法は、ユビキタスアノテーションノイズ、すなわちノイズ対応(NC)を無視しながら、トレーニングペアがうまく一致していると暗黙的に仮定している。このようなノイズに対処しようとする手法もあるが、過度な記憶/過度な適合と、特に高雑音下でのNCの信頼性の低い修正という2つの難しい問題に直面している。そこで本研究では,既存の手法のロバスト性を改善するために,新しいacl(active complement loss)とscc(auto-refining correspondence correction)の恩恵を受ける汎用的なcrcl(cross-modal robust complement learning framework)を提案する。特に、aclはアクティブで補完的な学習損失を利用して誤った監督を提供するリスクを低減し、理論的および実験的にncに対する堅牢性が実証される。 SCCは、モーメント補正を伴う複数の自己精製プロセスを利用して、対応を補正するために受容場を拡大し、エラーの蓄積を緩和し、正確で安定した補正を達成する。我々は3つの画像テキストベンチマーク(Flickr30K, MS-COCO, CC152K)で広範な実験を行い、CRCLの合成および実世界の雑音対応に対する優れた堅牢性を検証する。

関連論文リスト

Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文参考訳（メタデータ） (2026-02-13T02:13:45Z)
LLM Probing with Contrastive Eigenproblems: Improving Understanding and Applicability of CCS [0.17188280334580197]
最適化されるべきなのは、相対的なコントラスト一貫性である、と私たちは主張する。我々は CCS を固有確率として再構成し、解釈可能な固有値と複数の変数への自然な拡張を持つ閉形式解を得る。この結果から,コントラスト整合性の相対性化はCSの理解を向上するだけでなく,より広範な探索や機械的解釈可能性手法の道を開くことが示唆された。
論文参考訳（メタデータ） (2025-11-03T22:00:37Z)
Causal Disentanglement and Cross-Modal Alignment for Enhanced Few-Shot Learning [11.752632557524969]
Causal CLIP Adapter(CCA)は、CLIPから抽出された視覚的特徴を明示的に分離する新しいフレームワークである。本手法は, 分散シフトに対する数ショット性能とロバスト性の観点から, 常に最先端の手法より優れる。
論文参考訳（メタデータ） (2025-08-05T05:30:42Z)
Chain of Correction for Full-text Speech Recognition with Large Language Models [21.37485126269991]
大規模言語モデル(LLM)を用いた全文誤り訂正のための訂正の連鎖(CoC) CoCは、通常のマルチターンチャットフォーマット内のガイダンスとして、事前に認識されたテキストを使用して、エラーセグメントをセグメントごとに修正する。我々は、修正しきい値を設定し、過度な補正と過剰な言い換えのバランスをとる方法について分析する。
論文参考訳（メタデータ） (2025-04-02T09:06:23Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Confidence-Aware Document OCR Error Detection [1.003485566379789]
我々は,OCRシステム間の信頼度スコアと誤差率の相関関係を解析した。我々は、OCR信頼スコアをトークン埋め込みに組み込むBERTベースのモデルConfBERTを開発した。
論文参考訳（メタデータ） (2024-09-06T08:35:28Z)
Disentangled Noisy Correspondence Learning [56.06801962154915]
クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。 DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
論文参考訳（メタデータ） (2024-08-10T09:49:55Z)
Adversarial Training with OCR Modality Perturbation for Scene-Text Visual Question Answering [8.382903851560595]
Scene-Text Visual Question Answering (ST-VQA) は、画像中のシーンテキストを理解し、テキストコンテンツに関連する質問に答えることを目的としている。既存の手法の多くは光学文字認識(OCR)システムの精度に大きく依存している。本研究では,空間認識機能を備えたマルチモーダル対向学習アーキテクチャを提案する。
論文参考訳（メタデータ） (2024-03-14T11:22:06Z)
Weakly Supervised Co-training with Swapping Assignments for Semantic Segmentation [21.345548821276097]
クラスアクティベーションマップ(CAM)は通常、擬似ラベルを生成するために弱教師付きセマンティックセマンティックセグメンテーション(WSSS)で使用される。我々は、ガイド付きCAMを組み込んだエンドツーエンドWSSSモデルを提案し、CAMをオンラインで同時最適化しながらセグメンテーションモデルを訓練する。 CoSAは、追加の監督を持つものを含む、既存のマルチステージメソッドをすべて上回る、最初のシングルステージアプローチである。
論文参考訳（メタデータ） (2024-02-27T21:08:23Z)
Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文参考訳（メタデータ） (2023-12-27T09:03:43Z)
Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文参考訳（メタデータ） (2023-08-19T05:34:13Z)
When Does Contrastive Learning Preserve Adversarial Robustness from Pretraining to Finetuning? [99.4914671654374]
本稿では,新しい逆比較事前学習フレームワークAdvCLを提案する。本稿では,AdvCLがモデル精度と微調整効率を損なうことなく,タスク間の堅牢性伝達性を向上できることを示す。
論文参考訳（メタデータ） (2021-11-01T17:59:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。