論文の概要: Towards Robust and Fair Vision Learning in Open-World Environments
- arxiv url: http://arxiv.org/abs/2412.09439v1
- Date: Thu, 12 Dec 2024 16:50:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:32:19.569043
- Title: Towards Robust and Fair Vision Learning in Open-World Environments
- Title(参考訳): オープンワールド環境におけるロバスト・フェアビジョン学習に向けて
- Authors: Thanh-Dat Truong,
- Abstract要約: この論文は、視覚学習における公平性と堅牢性に対する4つの重要な貢献を示している。
まず、大規模データ要求の問題に対処するために、この論文は、新しいフェアネス・ドメイン適応アプローチを提示している。
第二に、視覚学習のオープンワールドモデリングを可能にするために、この論文は、新しいオープンワールドフェアネス連続学習フレームワークを提示する。
- 参考スコア(独自算出の注目度): 5.520041242906903
- License:
- Abstract: The dissertation presents four key contributions toward fairness and robustness in vision learning. First, to address the problem of large-scale data requirements, the dissertation presents a novel Fairness Domain Adaptation approach derived from two major novel research findings of Bijective Maximum Likelihood and Fairness Adaptation Learning. Second, to enable the capability of open-world modeling of vision learning, this dissertation presents a novel Open-world Fairness Continual Learning Framework. The success of this research direction is the result of two research lines, i.e., Fairness Continual Learning and Open-world Continual Learning. Third, since visual data are often captured from multiple camera views, robust vision learning methods should be capable of modeling invariant features across views. To achieve this desired goal, the research in this thesis will present a novel Geometry-based Cross-view Adaptation framework to learn robust feature representations across views. Finally, with the recent increase in large-scale videos and multimodal data, understanding the feature representations and improving the robustness of large-scale visual foundation models is critical. Therefore, this thesis will present novel Transformer-based approaches to improve the robust feature representations against multimodal and temporal data. Then, a novel Domain Generalization Approach will be presented to improve the robustness of visual foundation models. The research's theoretical analysis and experimental results have shown the effectiveness of the proposed approaches, demonstrating their superior performance compared to prior studies. The contributions in this dissertation have advanced the fairness and robustness of machine vision learning.
- Abstract(参考訳): この論文は、視覚学習における公平性と堅牢性に対する4つの重要な貢献を示している。
まず,大規模データ要求の問題に対処するため,本論文では,主観的最大主観的学習と公正適応学習の2つの新たな研究成果から,新たなフェアネスドメイン適応手法を提案する。
第二に、視覚学習のオープンワールドモデリングを可能にするために、この論文は、新しいオープンワールドフェアネス連続学習フレームワークを提示する。
この研究の方向性の成功は、Fairness Continual LearningとOpen World Continual Learningの2つの研究ラインの結果である。
第三に、視覚データは複数のカメラビューから取得されることが多いので、堅牢な視覚学習手法は、ビュー間で不変の機能をモデル化できるべきである。
この目的を達成するために、この論文では、ビュー間の堅牢な特徴表現を学習するための新しい幾何学に基づくクロスビュー適応フレームワークを提示する。
最後に、近年の大規模ビデオやマルチモーダルデータの増加に伴い、特徴表現の理解と大規模視覚基盤モデルの堅牢性向上が重要となる。
そこで本論文では,マルチモーダルデータと時間データに対するロバストな特徴表現を改善するために,トランスフォーマーに基づく新しいアプローチを提案する。
次に、視覚基盤モデルの堅牢性を改善するために、新しい領域一般化アプローチを示す。
本研究の理論的解析と実験結果から,提案手法の有効性が示され,先行研究よりも優れた性能を示した。
この論文への貢献により、機械学習の公正性と堅牢性は向上した。
関連論文リスト
- NeRF Director: Revisiting View Selection in Neural Volume Rendering [21.03892888687864]
我々は、ビュー選択方法の統合フレームワークを導入し、その影響を評価するためのベンチマークを考案する。
より少ないビューを使用することで、高品質なレンダリングを高速に実現できることを示す。
提案手法の有効性を実証するために,合成データセットと現実データの両方について広範な実験を行った。
論文 参考訳(メタデータ) (2024-06-13T06:04:19Z) - Unified View of Grokking, Double Descent and Emergent Abilities: A
Perspective from Circuits Competition [83.13280812128411]
近年の研究では、グラッキング、二重降下、大規模言語モデルにおける創発的能力など、ディープラーニングにおける興味深い現象が明らかにされている。
本稿では,記憶回路と一般化回路の競合に着目し,これら3つの現象の統一的な見方を提供する包括的枠組みを提案する。
論文 参考訳(メタデータ) (2024-02-23T08:14:36Z) - Vision Superalignment: Weak-to-Strong Generalization for Vision
Foundation Models [55.919653720979824]
本稿では、より弱いモデルを用いてより強いモデルを監督する弱強一般化の概念に焦点を当てる。
弱強監督のための新規かつ適応的に調整可能な損失関数を提案する。
提案手法は, 強い一般化によって設定された性能ベンチマークを超えるだけでなく, データセット全体を用いた微調整の強いモデルの結果を上回る。
論文 参考訳(メタデータ) (2024-02-06T06:30:34Z) - Masked Modeling for Self-supervised Representation Learning on Vision
and Beyond [69.64364187449773]
仮面モデリングは、トレーニング中に比例的にマスキングされる元のデータの一部を予測する、独特なアプローチとして現れてきた。
マスクモデリングにおけるテクニックの詳細については,多様なマスキング戦略,ターゲット回復,ネットワークアーキテクチャなどについて詳述する。
我々は、現在の手法の限界について議論し、マスクモデリング研究を進めるためのいくつかの道のりを指摘した。
論文 参考訳(メタデータ) (2023-12-31T12:03:21Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Foundation Models Meet Visualizations: Challenges and Opportunities [23.01218856618978]
本稿では,基礎モデル (VIS4FM) と基礎モデル (FM4VIS) を分割する。
VIS4FMでは、これらの複雑なモデルを理解し、精錬し、評価する上で、可視化の主要な役割を探求する。
FM4VISでは、基盤モデルがどのように可視化分野自体を前進させるかを強調した。
論文 参考訳(メタデータ) (2023-10-09T14:57:05Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。