論文の概要: Causal Reasoning with Spatial-temporal Representation Learning: A
Prospective Study
- arxiv url: http://arxiv.org/abs/2204.12037v1
- Date: Tue, 26 Apr 2022 02:22:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 12:13:48.649206
- Title: Causal Reasoning with Spatial-temporal Representation Learning: A
Prospective Study
- Title(参考訳): 時空間表現学習による因果推論--前向き研究
- Authors: Yang Liu, Yushen Wei, Hong Yan, Guanbin Li, Liang Lin
- Abstract要約: 本研究では,空間的時間的表現学習のための既存の因果推論手法を包括的に検討する。
本研究では,空間的時間的表現学習における因果推論アルゴリズムのベンチマークのための主な課題,機会,今後の研究方向性を提案する。
- 参考スコア(独自算出の注目度): 117.08431221482638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial-temporal representation learning is ubiquitous in various real-world
applications, including visual comprehension, video understanding, multi-modal
analysis, human-computer interaction, and urban computing. Due to the emergence
of huge amounts of multi-modal heterogeneous spatial/temporal/spatial-temporal
data in big data era, the existing visual methods rely heavily on large-scale
data annotations and supervised learning to learn a powerful big model.
However, the lack of interpretability, robustness, and out-of-distribution
generalization are becoming the bottleneck problems of these models, which
hinders the progress of interpretable and reliable artificial intelligence. The
majority of the existing methods are based on correlation learning with the
assumption that the data are independent and identically distributed, which
lack an unified guidance and analysis about why modern spatial-temporal
representation learning methods have limited interpretability and easily
collapse into dataset bias. Inspired by the strong inference ability of
human-level agents, recent years have therefore witnessed great effort in
developing causal reasoning paradigms to realize robust representation and
model learning with good interpretability. In this paper, we conduct a
comprehensive review of existing causal reasoning methods for spatial-temporal
representation learning, covering fundamental theories, models, and datasets.
The limitations of current methods and datasets are also discussed. Moreover,
we propose some primary challenges, opportunities, and future research
directions for benchmarking causal reasoning algorithms in spatial-temporal
representation learning.
- Abstract(参考訳): 空間-時間表現学習は、視覚理解、ビデオ理解、マルチモーダル分析、人間とコンピュータの相互作用、都市コンピューティングなど、様々な現実のアプリケーションにおいてユビキタスである。
ビッグデータ時代のマルチモーダルな異種空間・時空間・時空間データの存在により,既存の視覚的手法は大規模データアノテーションと教師付き学習に大きく依存している。
しかし、解釈可能性、堅牢性、分布外一般化の欠如がこれらのモデルのボトルネックとなり、解釈可能で信頼性の高い人工知能の進歩を妨げる。
既存の手法の大半は、データが独立で同一に分散しているという仮定と相関学習に基づいており、現代の時空間表現学習法が解釈可能性に制限があり、データセットバイアスに容易に崩壊する理由に関する統一的なガイダンスや分析が欠けている。
人レベルのエージェントの強い推論能力にインスパイアされた近年では、堅牢な表現を実現するための因果推論パラダイムの開発や、優れた解釈可能性を持つモデル学習に多大な努力が注がれている。
本稿では,空間-時間表現学習のための既存の因果推論法を包括的に検討し,基本理論,モデル,データセットについて述べる。
現在のメソッドやデータセットの制限についても議論する。
さらに,時空間表現学習における因果推論アルゴリズムのベンチマークのための主な課題,機会,今後の研究方向性を提案する。
関連論文リスト
- Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。
最近の傾向は、これらの2つの分野の潜在的均一性を示している。
本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文 参考訳(メタデータ) (2024-07-01T07:05:44Z) - Heterogeneous Contrastive Learning for Foundation Models and Beyond [73.74745053250619]
ビッグデータと人工知能の時代において、新しいパラダイムは、大規模な異種データをモデル化するために、対照的な自己教師付き学習を活用することである。
本調査は基礎モデルの異種コントラスト学習の現況を批判的に評価する。
論文 参考訳(メタデータ) (2024-03-30T02:55:49Z) - Causality-based Cross-Modal Representation Learning for
Vision-and-Language Navigation [15.058687283978077]
VLN(Vision-and-Language Navigation)は、現実のシナリオに応用される可能性から、近年、大きな研究の関心を集めている。
既存のVLN法は、急激な関連の問題に苦慮し、その結果、目に見える環境と目に見えない環境の間に大きな性能差があるような一般化が不十分になる。
本稿では,因果学習パラダイムに基づく統一的なフレームワークCausalVLNを提案する。
論文 参考訳(メタデータ) (2024-03-06T02:01:38Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Looking deeper into interpretable deep learning in neuroimaging: a
comprehensive survey [20.373311465258393]
本稿では、ニューロイメージング領域における解釈可能なディープラーニングモデルについて包括的にレビューする。
近年の神経画像研究は、モデル解釈可能性を利用して、モデル予測に最も関係のある解剖学的および機能的脳変化を捉える方法について論じている。
論文 参考訳(メタデータ) (2023-07-14T04:50:04Z) - Which Mutual-Information Representation Learning Objectives are
Sufficient for Control? [80.2534918595143]
相互情報は、データの表現を学習するために魅力的な形式を提供する。
本稿では,最適政策の学習と表現のための状態表現の十分性について定式化する。
意外なことに、これらの2つの目的は、MDPの構造に関する軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-14T10:12:34Z) - Generative Interventions for Causal Learning [27.371436971655303]
我々は,新しい視点,背景,シーンコンテキストに一般化したロバストな視覚表現を学ぶためのフレームワークを提案する。
我々は, 生成モデルを用いて, コンバウンディング要因による特徴の介入を行うことができることを示す。
論文 参考訳(メタデータ) (2020-12-22T16:01:55Z) - Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。
我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。
そして、理論的に学習された潜在表現の多元性を証明する。
論文 参考訳(メタデータ) (2020-11-12T02:29:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。