論文の概要: Regularizing disparity estimation via multi task learning with
structured light reconstruction
- arxiv url: http://arxiv.org/abs/2301.08140v1
- Date: Thu, 19 Jan 2023 15:54:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-20 14:50:53.997862
- Title: Regularizing disparity estimation via multi task learning with
structured light reconstruction
- Title(参考訳): 構造的光再構成を用いた多タスク学習による正規化差分推定
- Authors: Alistair Weld, Joao Cartucho, Chi Xu, Joseph Davids and Stamatia
Giannarou
- Abstract要約: シーン上の構造光の投影を正確に学習し,その相違を暗黙的に学習できることを初めて示す。
構造光を用いたMTLは,モデルパラメータの数を増やすことなく,差分訓練を改善することを示す。
- 参考スコア(独自算出の注目度): 3.81507084221034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D reconstruction is a useful tool for surgical planning and guidance.
However, the lack of available medical data stunts research and development in
this field, as supervised deep learning methods for accurate disparity
estimation rely heavily on large datasets containing ground truth information.
Alternative approaches to supervision have been explored, such as
self-supervision, which can reduce or remove entirely the need for ground
truth. However, no proposed alternatives have demonstrated performance
capabilities close to what would be expected from a supervised setup. This work
aims to alleviate this issue. In this paper, we investigate the learning of
structured light projections to enhance the development of direct disparity
estimation networks. We show for the first time that it is possible to
accurately learn the projection of structured light on a scene, implicitly
learning disparity. Secondly, we \textcolor{black}{explore the use of a multi
task learning (MTL) framework for the joint training of structured light and
disparity. We present results which show that MTL with structured light
improves disparity training; without increasing the number of model parameters.
Our MTL setup outperformed the single task learning (STL) network in every
validation test. Notably, in the medical generalisation test, the STL error was
1.4 times worse than that of the best MTL performance. The benefit of using MTL
is emphasised when the training data is limited.} A dataset containing
stereoscopic images, disparity maps and structured light projections on medical
phantoms and ex vivo tissue was created for evaluation together with virtual
scenes. This dataset will be made publicly available in the future.
- Abstract(参考訳): 3D再構成は手術計画や指導に有用なツールである。
しかし、この分野での医療データスタントの研究・開発が不十分なため、正確な異質度推定のための深層学習手法は、地上の真実情報を含む大規模なデータセットに大きく依存している。
監督に対する別のアプローチが検討されており、例えば自己監督(self-supervision)は、根拠となる真理の必要性を完全に減らすか、取り除くことができる。
しかし、提案された代替手段では、教師付きセットアップで期待される性能に近い性能を示すものはない。
この仕事はこの問題を緩和することを目指している。
本稿では,直交距離推定ネットワークの開発を促進するため,構造化光投影の学習について検討する。
暗黙的に異質性を学習することで,映像上の構造化光の投影を正確に学習できることを初めて示す。
第2に,多タスク学習(multi task learning, mtl)フレームワークを用いて,構造化光と不均質の合同トレーニングを行う。
構造光を用いたMTLは,モデルパラメータの数を増やすことなく,差分訓練を改善することを示す。
我々のMTLセットアップは、検証テスト毎に単一のタスク学習(STL)ネットワークを上回った。
特に医学的一般化テストでは、stl誤差は最高のmtl性能の1.4倍であった。
MTLを使用するメリットは、トレーニングデータに制限がある場合に強調される。
医用ファントムおよび生体外組織上の立体画像,不均一マップ,構造光投射を含むデータセットを作成し,仮想シーンとともに評価した。
このデータセットは将来的に公開される予定だ。
関連論文リスト
- Distributionally robust self-supervised learning for tabular data [2.942619386779508]
エラースライスの存在下での堅牢な表現の学習は、高い濃度特徴とエラーセットの構築の複雑さのために困難である。
従来の堅牢な表現学習手法は、コンピュータビジョンにおける教師付き設定における最悪のグループパフォーマンスの改善に主に焦点をあてている。
提案手法は,Masked Language Modeling (MLM) の損失を学習したエンコーダ・デコーダモデルを用いて,頑健な潜在表現を学習する。
論文 参考訳(メタデータ) (2024-10-11T04:23:56Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners [8.707819647492467]
視覚言語モデル全体(VLM)の精巧な精細化によるタスク固有情報の取得について検討する。
これらの問題を緩和するために,識別的視覚テキストタスクを設計するCLIP-CITEというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-04T15:22:54Z) - Multitask Learning Can Improve Worst-Group Outcomes [76.92646345152788]
マルチタスク学習(MTL)は、そのような広く使われている技法の一つである。
我々は,共同マルチタスク表現空間を正規化することにより,標準MTLを変更することを提案する。
正規化MTLアプローチは,平均群と最低群の両方でJTTを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-05T21:38:24Z) - Multi-Task Cooperative Learning via Searching for Flat Minima [8.835287696319641]
本稿では,MTLを多段最適化問題として定式化し,各タスクから協調的なアプローチで特徴を学習させることを提案する。
具体的には、他のタスクの学習したサブモデルを利用する代わりに、各タスクのサブモデルを更新する。
最適化時の負の伝達問題を緩和するため、現在の目的関数に対する平坦な最小値を求める。
論文 参考訳(メタデータ) (2023-09-21T14:00:11Z) - Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning [92.85265959892115]
本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的インストラクションチューニングデータセットを紹介する。
本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。
LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
論文 参考訳(メタデータ) (2023-06-26T10:26:33Z) - Understanding Multimodal Contrastive Learning and Incorporating Unpaired
Data [19.72282903349282]
マルチモーダル・コントラッシブ・ラーニング(MMCL)における非線形損失関数の一般クラスを示す。
MMCLの特徴学習能力は,各モダリティに適用される一助的コントラスト学習能力よりも優れていることを示す。
追加の未ペアデータにアクセスできる場合、追加の未ペアデータを含む新たなMMCL損失を提案する。
論文 参考訳(メタデータ) (2023-02-13T10:11:05Z) - When to Use Multi-Task Learning vs Intermediate Fine-Tuning for
Pre-Trained Encoder Transfer Learning [15.39115079099451]
近年,自然言語処理における伝達学習(TL)への関心が高まっている。
微調整中に複数の教師付きデータセットを使用するための3つの主要な戦略が登場した。
GLUEデータセットの包括的解析において,3つのTL手法を比較した。
論文 参考訳(メタデータ) (2022-05-17T06:48:45Z) - SelfVoxeLO: Self-supervised LiDAR Odometry with Voxel-based Deep Neural
Networks [81.64530401885476]
本稿では,これら2つの課題に対処するために,自己教師型LiDARオドメトリー法(SelfVoxeLO)を提案する。
具体的には、生のLiDARデータを直接処理する3D畳み込みネットワークを提案し、3D幾何パターンをよりよく符号化する特徴を抽出する。
我々は,KITTIとApollo-SouthBayという2つの大規模データセット上での手法の性能を評価する。
論文 参考訳(メタデータ) (2020-10-19T09:23:39Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。