論文の概要: Causal-Inspired Multitask Learning for Video-Based Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2501.14356v1
- Date: Fri, 24 Jan 2025 09:45:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:56:54.214543
- Title: Causal-Inspired Multitask Learning for Video-Based Human Pose Estimation
- Title(参考訳): 因果刺激型マルチタスク学習によるビデオベースヒューマンポース推定
- Authors: Haipeng Chen, Sifan Wu, Zhigang Wang, Yifang Yin, Yingying Jiao, Yingda Lyu, Zhenguang Liu,
- Abstract要約: 本稿では2段階からなる因果時間モデリングフレームワークを提案する。
第1段階では、2つの自己超越補助タスクを導入することにより、因果時間モデリング能力を備えたモデルを提供する。
第2段階では、すべての特徴トークンが、ポーズ推定に等しく寄与するわけではないと論じる。
提案手法は3つの大規模ベンチマークデータセット上で最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 18.826857684901118
- License:
- Abstract: Video-based human pose estimation has long been a fundamental yet challenging problem in computer vision. Previous studies focus on spatio-temporal modeling through the enhancement of architecture design and optimization strategies. However, they overlook the causal relationships in the joints, leading to models that may be overly tailored and thus estimate poorly to challenging scenes. Therefore, adequate causal reasoning capability, coupled with good interpretability of model, are both indispensable and prerequisite for achieving reliable results. In this paper, we pioneer a causal perspective on pose estimation and introduce a causal-inspired multitask learning framework, consisting of two stages. \textit{In the first stage}, we try to endow the model with causal spatio-temporal modeling ability by introducing two self-supervision auxiliary tasks. Specifically, these auxiliary tasks enable the network to infer challenging keypoints based on observed keypoint information, thereby imbuing causal reasoning capabilities into the model and making it robust to challenging scenes. \textit{In the second stage}, we argue that not all feature tokens contribute equally to pose estimation. Prioritizing causal (keypoint-relevant) tokens is crucial to achieve reliable results, which could improve the interpretability of the model. To this end, we propose a Token Causal Importance Selection module to identify the causal tokens and non-causal tokens (\textit{e.g.}, background and objects). Additionally, non-causal tokens could provide potentially beneficial cues but may be redundant. We further introduce a non-causal tokens clustering module to merge the similar non-causal tokens. Extensive experiments show that our method outperforms state-of-the-art methods on three large-scale benchmark datasets.
- Abstract(参考訳): ビデオベースの人間のポーズ推定は、長い間コンピュータビジョンの根本的な問題でありながら挑戦的だった。
従来の研究では、アーキテクチャ設計と最適化戦略の強化による時空間モデリングに焦点が当てられていた。
しかし、彼らは関節の因果関係を見落とし、過度に調整されたモデルとなり、難易度の高いシーンを見積もることができない。
したがって、適切な因果推論能力とモデルの良好な解釈可能性は、信頼性の高い結果を得るために必要不可欠であり、必要不可欠なものである。
本稿では,ポーズ推定の因果的視点を開拓し,2段階からなる因果型マルチタスク学習フレームワークを導入する。
第一段階において、我々は2つの自己超越補助タスクを導入することにより、因果時空間モデリング能力をモデルに組み込もうとする。
具体的には、これらの補助的なタスクにより、観測されたキーポイント情報に基づいて挑戦的なキーポイントを推論し、モデルに因果推論能力を付与し、挑戦的なシーンに対して堅牢にすることができる。
第二の段階では、すべての特徴トークンが、見積もりのポーズに等しく寄与するわけではない、と我々は主張する。
因果(キーポイント関連)トークンの優先順位付けは信頼性の高い結果を達成するために不可欠であり、モデルの解釈可能性を向上させる可能性がある。
そこで本稿では、因果トークンと非因果トークン(\textit{e g }, background and objects)を識別するToken Causal Importance Selectionモジュールを提案する。
さらに、非因果トークンは潜在的に有益であるが、冗長である可能性がある。
さらに、類似の非因果トークンをマージするために、非因果トークンクラスタリングモジュールを導入します。
大規模な3つのベンチマークデータセットにおいて,本手法が最先端の手法より優れていることを示す。
関連論文リスト
- Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Scaling Capability in Token Space: An Analysis of Large Vision Language Model [27.59879939490807]
視覚言語モデルにおける視覚トークン数と性能の関係について検討する。
また,ユーザの質問を視覚トークンと統合する融合機構の影響についても検討する。
論文 参考訳(メタデータ) (2024-12-24T12:20:24Z) - Solving the Clustering Reasoning Problems by Modeling a Deep-Learning-Based Probabilistic Model [1.7955614278088239]
我々は,Bongard-Logoで高い推論精度を実現する深層学習に基づく確率モデルであるPMoCを紹介する。
また,複雑な視覚的抽象的推論タスクのためのPose-Transformerを設計した。
論文 参考訳(メタデータ) (2024-03-05T18:08:29Z) - Towards Causal Foundation Model: on Duality between Causal Inference and Attention [18.046388712804042]
治療効果推定のための因果認識基盤モデルの構築に向けて第一歩を踏み出す。
我々はCInA(Causal Inference with Attention)と呼ばれる新しい理論的に正当化された手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T22:28:34Z) - Causal Triplet: An Open Challenge for Intervention-centric Causal
Representation Learning [98.78136504619539]
Causal Tripletは、視覚的に複雑なシーンを特徴とする因果表現学習ベンチマークである。
この結果から,不整合表現やオブジェクト中心表現の知識によって構築されたモデルが,分散表現よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-01-12T17:43:38Z) - Fairness Increases Adversarial Vulnerability [50.90773979394264]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。
非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。
フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-11-21T19:55:35Z) - Towards Improving Faithfulness in Abstractive Summarization [37.19777407790153]
本稿では,抽象的な要約における忠実度を改善するために,FES(Fithfulness Enhanced Summarization Model)を提案する。
我々のモデルはCNN/DMとXSumの実験において強いベースラインを上回ります。
論文 参考訳(メタデータ) (2022-10-04T19:52:09Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Dependent Multi-Task Learning with Causal Intervention for Image
Captioning [10.6405791176668]
本稿では、因果的介入(DMTCI)を伴う依存型マルチタスク学習フレームワークを提案する。
まず、中間タスク、カテゴリの袋生成、最終タスクの前に、画像キャプションを伴います。
次に、pearlのdo-calculusをモデルに適用し、視覚的特徴と共同設立者のつながりを取り除きます。
最後に,エンド・ツー・エンドのトレーニングを可能にし,タスク間エラーの蓄積を低減するために,マルチエージェント強化学習戦略を用いる。
論文 参考訳(メタデータ) (2021-05-18T14:57:33Z) - Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。
モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。
要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。