論文の概要: How to Understand "Support"? An Implicit-enhanced Causal Inference
Approach for Weakly-supervised Phrase Grounding
- arxiv url: http://arxiv.org/abs/2402.19116v2
- Date: Mon, 4 Mar 2024 08:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 21:58:21.626170
- Title: How to Understand "Support"? An Implicit-enhanced Causal Inference
Approach for Weakly-supervised Phrase Grounding
- Title(参考訳): Support"をどう理解するか?
弱制御されたフレーズ接地における暗黙的な因果推論手法
- Authors: Jiamin Luo, Jianing Zhao, Jingjing Wang, Guodong Zhou
- Abstract要約: WPG(Wakly-supervised Phrase Grounding)は,微粒な句領域マッチングを推定する新たな課題である。
本稿では,暗黙的な関係をモデル化する上での課題に対処するインプリシット強化因果推論手法を提案する。
- 参考スコア(独自算出の注目度): 18.97081348819219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly-supervised Phrase Grounding (WPG) is an emerging task of inferring the
fine-grained phrase-region matching, while merely leveraging the coarse-grained
sentence-image pairs for training. However, existing studies on WPG largely
ignore the implicit phrase-region matching relations, which are crucial for
evaluating the capability of models in understanding the deep multimodal
semantics. To this end, this paper proposes an Implicit-Enhanced Causal
Inference (IECI) approach to address the challenges of modeling the implicit
relations and highlighting them beyond the explicit. Specifically, this
approach leverages both the intervention and counterfactual techniques to
tackle the above two challenges respectively. Furthermore, a high-quality
implicit-enhanced dataset is annotated to evaluate IECI and detailed
evaluations show the great advantages of IECI over the state-of-the-art
baselines. Particularly, we observe an interesting finding that IECI
outperforms the advanced multimodal LLMs by a large margin on this
implicit-enhanced dataset, which may facilitate more research to evaluate the
multimodal LLMs in this direction.
- Abstract(参考訳): WPG (Weakly-supervised Phrase Grounding) は, 粗い文と画像のペアを訓練に用いながら, きめ細かな句領域マッチングを推定する新たな課題である。
しかしながら、WPGに関する既存の研究は、深いマルチモーダル意味論を理解する上でモデルの有効性を評価する上で重要な暗黙のフレーズ領域マッチング関係を無視している。
そこで本研究では,暗黙的関係をモデル化し,明示的関係を超えて強調する上での課題に対処するImplicit-Enhanced Causal Inference (IECI)アプローチを提案する。
特に、このアプローチは、それぞれ上記の2つの課題に取り組むために、介入と反現実的手法の両方を活用する。
さらに、IECIを評価するために高品質な暗黙的拡張データセットがアノテートされ、詳細な評価は、最先端のベースラインに対するIECIの大きな利点を示している。
特に、この暗黙的拡張データセットにおいて、IECIが高度なマルチモーダルLLMよりも大きなマージンで優れており、この方向へのマルチモーダルLLMを評価するためのさらなる研究が促進される可能性がある。
関連論文リスト
- Cross-target Stance Detection by Exploiting Target Analytical
Perspectives [22.320628580895164]
目標位置検出(CTSD)は,目標位置からのアノテートデータを利用することで,目標位置の姿勢を推定する重要なタスクである。
CTSDにおける重要なアプローチの1つは、複数のターゲット間の知識ギャップを埋めるために、ドメイン不変の特徴を抽出することである。
本稿では,解析的視点をブリッジとして用いたCTSDのためのMPPTモデルを提案する。
論文 参考訳(メタデータ) (2024-01-03T14:28:55Z) - Igniting Language Intelligence: The Hitchhiker's Guide From
Chain-of-Thought Reasoning to Language Agents [80.5213198675411]
大規模言語モデル(LLM)は言語知能の分野を劇的に拡張した。
LLMは興味をそそるチェーン・オブ・シークレット(CoT)推論技術を活用し、答えを導き出す途中の中間ステップを定式化しなければならない。
最近の研究は、自律言語エージェントの開発を促進するためにCoT推論手法を拡張している。
論文 参考訳(メタデータ) (2023-11-20T14:30:55Z) - Prompt-based Logical Semantics Enhancement for Implicit Discourse
Relation Recognition [4.7938839332508945]
Inlicit Discourse Relation Recognition (IDRR) のための Prompt-based Logical Semantics Enhancement (PLSE) 法を提案する。
提案手法は,事前学習した言語モデルに対する対話関係に関する知識を,素早い接続予測によってシームレスに注入する。
PDTB 2.0 と CoNLL16 データセットによる実験結果から,本手法は現状の最先端モデルに対して優れた一貫した性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-11-01T08:38:08Z) - Topic-driven Distant Supervision Framework for Macro-level Discourse
Parsing [72.14449502499535]
テキストの内部修辞構造を解析する作業は、自然言語処理において難しい問題である。
近年のニューラルモデルの発展にもかかわらず、トレーニングのための大規模で高品質なコーパスの欠如は大きな障害となっている。
近年の研究では、遠方の監督を用いてこの制限を克服しようと試みている。
論文 参考訳(メタデータ) (2023-05-23T07:13:51Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - Deep Context- and Relation-Aware Learning for Aspect-based Sentiment
Analysis [3.7175198778996483]
本研究では,深い文脈情報を持つサブタスク間での対話的関係を実現するディープ・コンテクスチュアライズド・リレーア・アウェア・ネットワーク(DCRAN)を提案する。
DCRANは3つの広く使用されているベンチマークにおいて、従来の最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-06-07T17:16:15Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z) - Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty
Estimation for Facial Expression Recognition [59.52434325897716]
DMUE(DMUE)という,アノテーションのあいまいさを2つの視点から解決するソリューションを提案する。
前者に対しては,ラベル空間における潜伏分布をよりよく記述するために,補助的マルチブランチ学習フレームワークを導入する。
後者の場合、インスタンス間の意味的特徴のペアワイズ関係を完全に活用して、インスタンス空間のあいまいさの程度を推定する。
論文 参考訳(メタデータ) (2021-04-01T03:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。