論文の概要: AnANet: Modeling Association and Alignment for Cross-modal Correlation
Classification
- arxiv url: http://arxiv.org/abs/2109.00693v1
- Date: Thu, 2 Sep 2021 03:42:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-03 14:10:14.669240
- Title: AnANet: Modeling Association and Alignment for Cross-modal Correlation
Classification
- Title(参考訳): AnANet:クロスモーダル相関分類のためのモデリングアソシエーションとアライメント
- Authors: Nan Xu, Junyan Wang, Yuan Tian, Ruike Zhang, and Wenji Mao
- Abstract要約: 画像とテキストの相関関係を包括的に分析し、暗黙の関連と明示的なアライメントに基づく新しい分類体系を再定義する。
構築した画像-テキスト相関データセットの実験結果から,本モデルの有効性が示された。
- 参考スコア(独自算出の注目度): 20.994250472941427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The explosive increase of multimodal data makes a great demand in many
cross-modal applications that follow the strict prior related assumption. Thus
researchers study the definition of cross-modal correlation category and
construct various classification systems and predictive models. However, those
systems pay more attention to the fine-grained relevant types of cross-modal
correlation, ignoring lots of implicit relevant data which are often divided
into irrelevant types. What's worse is that none of previous predictive models
manifest the essence of cross-modal correlation according to their definition
at the modeling stage. In this paper, we present a comprehensive analysis of
the image-text correlation and redefine a new classification system based on
implicit association and explicit alignment. To predict the type of image-text
correlation, we propose the Association and Alignment Network according to our
proposed definition (namely AnANet) which implicitly represents the global
discrepancy and commonality between image and text and explicitly captures the
cross-modal local relevance. The experimental results on our constructed new
image-text correlation dataset show the effectiveness of our model.
- Abstract(参考訳): マルチモーダルデータの爆発的な増加は、厳密な事前仮定に従う多くのクロスモーダルアプリケーションにおいて大きな需要をもたらす。
そこで研究者らは,クロスモーダル相関カテゴリの定義を調査し,様々な分類システムと予測モデルを構築した。
しかしながら、これらのシステムは、しばしば無関係な型に分けられる暗黙の関連データの多くを無視して、細かな関連したクロスモーダル相関のタイプに注意を払っている。
さらに悪いことに、モデリングの段階での定義に従って、過去の予測モデルが相互モーダル相関の本質を示さないことです。
本稿では,画像テキスト相関の包括的解析を行い,暗黙的関連と明示的なアライメントに基づく新しい分類体系を再定義する。
画像とテキストの相互関係のタイプを予測するために,提案する定義(ananet)に基づき,画像とテキスト間の大域的不一致と共通性を暗黙的に表現し,クロスモーダルな局所的関連性を明示的に捉えたアライメントネットワークを提案する。
新たに構築した画像・テキスト相関データセットにおける実験結果から,本モデルの有効性を示す。
関連論文リスト
- IDRNet: Intervention-Driven Relation Network for Semantic Segmentation [34.09179171102469]
同時進行の視覚パターンは、画素関係モデリングが密接な予測タスクを促進することを示唆している。
印象的な結果にもかかわらず、既存のパラダイムは、しばしば不適切または効果的な文脈情報集約に悩まされる。
我々は,textbfIntervention-textbfDriven textbfRelation textbfNetworkを提案する。
論文 参考訳(メタデータ) (2023-10-16T18:37:33Z) - Learning Complete Topology-Aware Correlations Between Relations for
Inductive Link Prediction [97.91714896039421]
関係性間の意味的相関は本質的にエッジレベルとエンティティ非依存であることを示す。
本研究では,関係関係のトポロジ・アウェア・コレレーションをモデル化するための新しいサブグラフベース手法,TACOを提案する。
RCNのポテンシャルをさらに活用するために, 完全コモンニアインダストリアルサブグラフを提案する。
論文 参考訳(メタデータ) (2023-09-20T08:11:58Z) - Investigating Failures to Generalize for Coreference Resolution Models [93.95952368743919]
本稿では,現在のコア参照解決モデルの誤差が,データセット間での運用方法の相違にどの程度関連しているかを検討する。
具体的には、モデル性能をいくつかのタイプのコア参照に対応するカテゴリに分け、分解する。
このブレークダウンは、異なるコア参照タイプをまたいだ一般化能力において、最先端モデルがどのように異なるかを調べるのに役立ちます。
論文 参考訳(メタデータ) (2023-03-16T05:32:02Z) - FECANet: Boosting Few-Shot Semantic Segmentation with Feature-Enhanced
Context-Aware Network [48.912196729711624]
Few-shot セマンティックセグメンテーション(Few-shot semantic segmentation)は、新しいクラスの各ピクセルを、わずかに注釈付きサポートイメージで検索するタスクである。
本稿では,クラス間の類似性に起因するマッチングノイズを抑制するために,機能拡張コンテキスト認識ネットワーク(FECANet)を提案する。
さらに,前景と背景の余分な対応関係を符号化する新たな相関再構成モジュールを提案する。
論文 参考訳(メタデータ) (2023-01-19T16:31:13Z) - Does Your Model Classify Entities Reasonably? Diagnosing and Mitigating
Spurious Correlations in Entity Typing [29.820473012776283]
既存のエンティティ型付けモデルは、素早い相関の問題に直面している。
既存のモデルバイアスには、参照コンテキストバイアス、語彙オーバーラップバイアス、名前付きエンティティバイアス、代名詞バイアス、依存性バイアス、一般化バイアスの6種類がある。
オリジナルのトレーニングセットをバイアスなしのトレーニングセットで強化することで、モデルは文を完全に理解せざるを得なくなる。
論文 参考訳(メタデータ) (2022-05-25T10:34:22Z) - Discriminative Multimodal Learning via Conditional Priors in Generative
Models [21.166519800652047]
本研究は,モデルトレーニングにおいて,すべてのモダリティとクラスラベルが利用できる現実的なシナリオについて研究する。
このシナリオでは、変動的な下界境界は、結合表現と欠測モダリティの間の相互情報を制限する。
論文 参考訳(メタデータ) (2021-10-09T17:22:24Z) - Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。
具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文 参考訳(メタデータ) (2021-07-09T19:48:23Z) - Graph Pattern Loss based Diversified Attention Network for Cross-Modal
Retrieval [10.420129873840578]
クロスモーダル検索は、画像、ビデオ、テキスト、オーディオなどのマルチメディアデータを組み合わせることで、柔軟な検索体験を実現することを目的としている。
教師なしアプローチのコアの1つは、高価なラベルを必要とすることなく、異なるオブジェクト表現間の相関関係を掘り下げて、満足度の高い検索性能を完成させることである。
教師なしクロスモーダル検索のためのグラフパターン損失に基づく分散注意ネットワーク(GPLDAN)を提案する。
論文 参考訳(メタデータ) (2021-06-25T10:53:07Z) - Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。
初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-06-04T14:39:03Z) - Out-of-distribution Generalization via Partial Feature Decorrelation [72.96261704851683]
本稿では,特徴分解ネットワークと対象画像分類モデルとを協調的に最適化する,PFDL(Partial Feature Deorrelation Learning)アルゴリズムを提案する。
実世界のデータセットを用いた実験により,OOD画像分類データセットにおけるバックボーンモデルの精度が向上することを示した。
論文 参考訳(メタデータ) (2020-07-30T05:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。