論文の概要: Causal Reasoning Meets Visual Representation Learning: A Prospective
Study
- arxiv url: http://arxiv.org/abs/2204.12037v8
- Date: Wed, 22 Mar 2023 02:41:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 04:34:37.565185
- Title: Causal Reasoning Meets Visual Representation Learning: A Prospective
Study
- Title(参考訳): 因果推論は視覚的表現学習と合致する--前向き研究
- Authors: Yang Liu, Yushen Wei, Hong Yan, Guanbin Li, Liang Lin
- Abstract要約: 解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
- 参考スコア(独自算出の注目度): 117.08431221482638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual representation learning is ubiquitous in various real-world
applications, including visual comprehension, video understanding, multi-modal
analysis, human-computer interaction, and urban computing. Due to the emergence
of huge amounts of multi-modal heterogeneous spatial/temporal/spatial-temporal
data in big data era, the lack of interpretability, robustness, and
out-of-distribution generalization are becoming the challenges of the existing
visual models. The majority of the existing methods tend to fit the original
data/variable distributions and ignore the essential causal relations behind
the multi-modal knowledge, which lacks unified guidance and analysis about why
modern visual representation learning methods easily collapse into data bias
and have limited generalization and cognitive abilities. Inspired by the strong
inference ability of human-level agents, recent years have therefore witnessed
great effort in developing causal reasoning paradigms to realize robust
representation and model learning with good cognitive ability. In this paper,
we conduct a comprehensive review of existing causal reasoning methods for
visual representation learning, covering fundamental theories, models, and
datasets. The limitations of current methods and datasets are also discussed.
Moreover, we propose some prospective challenges, opportunities, and future
research directions for benchmarking causal reasoning algorithms in visual
representation learning. This paper aims to provide a comprehensive overview of
this emerging field, attract attention, encourage discussions, bring to the
forefront the urgency of developing novel causal reasoning methods, publicly
available benchmarks, and consensus-building standards for reliable visual
representation learning and related real-world applications more efficiently.
- Abstract(参考訳): 視覚表現学習は、視覚理解、ビデオ理解、マルチモーダル分析、人間とコンピュータの相互作用、都市コンピューティングなど、様々な現実世界のアプリケーションで広く使われている。
ビッグデータ時代の多変量多変量空間・時空間・空間・時空間データの出現により、解釈可能性、堅牢性、分散一般化の欠如が既存の視覚モデルの課題となっている。
既存の手法の多くは、元のデータ/可変分布に適合し、多モード知識の背後にある基本的な因果関係を無視する傾向にあり、現代の視覚表現学習手法がデータバイアスに容易に崩壊し、一般化と認知能力が制限される理由について統一的なガイダンスや分析が欠けている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、堅牢な表現と優れた認知能力を備えたモデル学習を実現するための因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,視覚表現学習のための既存の因果推論法を総合的に検討し,基本理論,モデル,データセットについて述べる。
現在のメソッドやデータセットの制限についても議論する。
さらに,視覚表現学習における因果推論アルゴリズムをベンチマークするための課題,機会,今後の研究方向を提案する。
本稿では,この新興分野を総合的に概観し,注意を引き付け,議論を奨励し,新たな因果推論手法,公開ベンチマーク,信頼性の高い視覚的表現学習と関連する実世界アプリケーションのためのコンセンサス構築標準の開発に向けた切迫感をもたらすことを目的とする。
関連論文リスト
- Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。
最近の傾向は、これらの2つの分野の潜在的均一性を示している。
本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文 参考訳(メタデータ) (2024-07-01T07:05:44Z) - Heterogeneous Contrastive Learning for Foundation Models and Beyond [73.74745053250619]
ビッグデータと人工知能の時代において、新しいパラダイムは、大規模な異種データをモデル化するために、対照的な自己教師付き学習を活用することである。
本調査は基礎モデルの異種コントラスト学習の現況を批判的に評価する。
論文 参考訳(メタデータ) (2024-03-30T02:55:49Z) - Causality-based Cross-Modal Representation Learning for
Vision-and-Language Navigation [15.058687283978077]
VLN(Vision-and-Language Navigation)は、現実のシナリオに応用される可能性から、近年、大きな研究の関心を集めている。
既存のVLN法は、急激な関連の問題に苦慮し、その結果、目に見える環境と目に見えない環境の間に大きな性能差があるような一般化が不十分になる。
本稿では,因果学習パラダイムに基づく統一的なフレームワークCausalVLNを提案する。
論文 参考訳(メタデータ) (2024-03-06T02:01:38Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Looking deeper into interpretable deep learning in neuroimaging: a
comprehensive survey [20.373311465258393]
本稿では、ニューロイメージング領域における解釈可能なディープラーニングモデルについて包括的にレビューする。
近年の神経画像研究は、モデル解釈可能性を利用して、モデル予測に最も関係のある解剖学的および機能的脳変化を捉える方法について論じている。
論文 参考訳(メタデータ) (2023-07-14T04:50:04Z) - Which Mutual-Information Representation Learning Objectives are
Sufficient for Control? [80.2534918595143]
相互情報は、データの表現を学習するために魅力的な形式を提供する。
本稿では,最適政策の学習と表現のための状態表現の十分性について定式化する。
意外なことに、これらの2つの目的は、MDPの構造に関する軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-14T10:12:34Z) - Generative Interventions for Causal Learning [27.371436971655303]
我々は,新しい視点,背景,シーンコンテキストに一般化したロバストな視覚表現を学ぶためのフレームワークを提案する。
我々は, 生成モデルを用いて, コンバウンディング要因による特徴の介入を行うことができることを示す。
論文 参考訳(メタデータ) (2020-12-22T16:01:55Z) - Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。
我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。
そして、理論的に学習された潜在表現の多元性を証明する。
論文 参考訳(メタデータ) (2020-11-12T02:29:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。