論文の概要: AnANet: Modeling Association and Alignment for Cross-modal Correlation
Classification
- arxiv url: http://arxiv.org/abs/2109.00693v1
- Date: Thu, 2 Sep 2021 03:42:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-03 14:10:14.669240
- Title: AnANet: Modeling Association and Alignment for Cross-modal Correlation
Classification
- Title(参考訳): AnANet:クロスモーダル相関分類のためのモデリングアソシエーションとアライメント
- Authors: Nan Xu, Junyan Wang, Yuan Tian, Ruike Zhang, and Wenji Mao
- Abstract要約: 画像とテキストの相関関係を包括的に分析し、暗黙の関連と明示的なアライメントに基づく新しい分類体系を再定義する。
構築した画像-テキスト相関データセットの実験結果から,本モデルの有効性が示された。
- 参考スコア(独自算出の注目度): 20.994250472941427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The explosive increase of multimodal data makes a great demand in many
cross-modal applications that follow the strict prior related assumption. Thus
researchers study the definition of cross-modal correlation category and
construct various classification systems and predictive models. However, those
systems pay more attention to the fine-grained relevant types of cross-modal
correlation, ignoring lots of implicit relevant data which are often divided
into irrelevant types. What's worse is that none of previous predictive models
manifest the essence of cross-modal correlation according to their definition
at the modeling stage. In this paper, we present a comprehensive analysis of
the image-text correlation and redefine a new classification system based on
implicit association and explicit alignment. To predict the type of image-text
correlation, we propose the Association and Alignment Network according to our
proposed definition (namely AnANet) which implicitly represents the global
discrepancy and commonality between image and text and explicitly captures the
cross-modal local relevance. The experimental results on our constructed new
image-text correlation dataset show the effectiveness of our model.
- Abstract(参考訳): マルチモーダルデータの爆発的な増加は、厳密な事前仮定に従う多くのクロスモーダルアプリケーションにおいて大きな需要をもたらす。
そこで研究者らは,クロスモーダル相関カテゴリの定義を調査し,様々な分類システムと予測モデルを構築した。
しかしながら、これらのシステムは、しばしば無関係な型に分けられる暗黙の関連データの多くを無視して、細かな関連したクロスモーダル相関のタイプに注意を払っている。
さらに悪いことに、モデリングの段階での定義に従って、過去の予測モデルが相互モーダル相関の本質を示さないことです。
本稿では,画像テキスト相関の包括的解析を行い,暗黙的関連と明示的なアライメントに基づく新しい分類体系を再定義する。
画像とテキストの相互関係のタイプを予測するために,提案する定義(ananet)に基づき,画像とテキスト間の大域的不一致と共通性を暗黙的に表現し,クロスモーダルな局所的関連性を明示的に捉えたアライメントネットワークを提案する。
新たに構築した画像・テキスト相関データセットにおける実験結果から,本モデルの有効性を示す。
関連論文リスト
- Bridging the Modality Gap: Dimension Information Alignment and Sparse Spatial Constraint for Image-Text Matching [10.709744162565274]
本稿では2つの側面からモダリティギャップを橋渡しするDIASと呼ばれる新しい手法を提案する。
この方法はFlickr30kとMSCOCOベンチマークで4.3%-10.2%のrSum改善を実現している。
論文 参考訳(メタデータ) (2024-10-22T09:37:29Z) - Towards Deconfounded Image-Text Matching with Causal Inference [36.739004282369656]
本稿では、画像テキストマッチングタスクのための革新的なDecon founded Causal Inference Network(DCIN)を提案する。
DCINは、モダル内およびモダル間共同創設者を分解し、それらを視覚的およびテキスト的特徴のエンコーディングステージに組み込む。
データセットバイアスによって引き起こされる刺激的な相関ではなく、因果関係を学ぶことができる。
論文 参考訳(メタデータ) (2024-08-22T11:04:28Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Spuriousness-Aware Meta-Learning for Learning Robust Classifiers [26.544938760265136]
Spurious correlations is brittle associations between certain attribute of inputs and target variables。
深部画像分類器はしばしばそれらを予測に利用し、相関が持たないデータの一般化が不十分になる。
スプリアス相関の影響を緩和することはロバストなモデル一般化に不可欠であるが、しばしばデータ内のスプリアス相関のアノテーションを必要とする。
論文 参考訳(メタデータ) (2024-06-15T21:41:25Z) - CausalConceptTS: Causal Attributions for Time Series Classification using High Fidelity Diffusion Models [1.068128849363198]
特定の分類結果に対する概念の因果効果を評価するための新しい枠組みを提案する。
我々は、現状の拡散に基づく生成モデルを利用して、反現実的な結果を推定する。
我々のアプローチは、これらの因果属性と、理論的にも経験的にも、密接に関連する関連属性を比較する。
論文 参考訳(メタデータ) (2024-05-24T18:33:18Z) - Learning Complete Topology-Aware Correlations Between Relations for Inductive Link Prediction [121.65152276851619]
関係性間の意味的相関は本質的にエッジレベルとエンティティ非依存であることを示す。
本研究では,関係関係のトポロジ・アウェア・コレレーションをモデル化するための新しいサブグラフベース手法,TACOを提案する。
RCNのポテンシャルをさらに活用するために, 完全コモンニアインダストリアルサブグラフを提案する。
論文 参考訳(メタデータ) (2023-09-20T08:11:58Z) - FECANet: Boosting Few-Shot Semantic Segmentation with Feature-Enhanced
Context-Aware Network [48.912196729711624]
Few-shot セマンティックセグメンテーション(Few-shot semantic segmentation)は、新しいクラスの各ピクセルを、わずかに注釈付きサポートイメージで検索するタスクである。
本稿では,クラス間の類似性に起因するマッチングノイズを抑制するために,機能拡張コンテキスト認識ネットワーク(FECANet)を提案する。
さらに,前景と背景の余分な対応関係を符号化する新たな相関再構成モジュールを提案する。
論文 参考訳(メタデータ) (2023-01-19T16:31:13Z) - Does Your Model Classify Entities Reasonably? Diagnosing and Mitigating
Spurious Correlations in Entity Typing [29.820473012776283]
既存のエンティティ型付けモデルは、素早い相関の問題に直面している。
既存のモデルバイアスには、参照コンテキストバイアス、語彙オーバーラップバイアス、名前付きエンティティバイアス、代名詞バイアス、依存性バイアス、一般化バイアスの6種類がある。
オリジナルのトレーニングセットをバイアスなしのトレーニングセットで強化することで、モデルは文を完全に理解せざるを得なくなる。
論文 参考訳(メタデータ) (2022-05-25T10:34:22Z) - Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。
具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文 参考訳(メタデータ) (2021-07-09T19:48:23Z) - Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。
初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-06-04T14:39:03Z) - Out-of-distribution Generalization via Partial Feature Decorrelation [72.96261704851683]
本稿では,特徴分解ネットワークと対象画像分類モデルとを協調的に最適化する,PFDL(Partial Feature Deorrelation Learning)アルゴリズムを提案する。
実世界のデータセットを用いた実験により,OOD画像分類データセットにおけるバックボーンモデルの精度が向上することを示した。
論文 参考訳(メタデータ) (2020-07-30T05:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。