Fugu-MT 論文翻訳(概要): Technique Report of CVPR 2024 PBDL Challenges

論文の概要: Technique Report of CVPR 2024 PBDL Challenges

arxiv url: http://arxiv.org/abs/2406.10744v3
Date: Fri, 12 Jul 2024 11:31:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 04:27:56.923749
Title: Technique Report of CVPR 2024 PBDL Challenges
Title（参考訳）: CVPR 2024 PBDLチャレンジの実施報告
Authors: Ying Fu, Yu Li, Shaodi You, Boxin Shi, Linwei Chen, Yunhao Zou, Zichun Wang, Yichen Li, Yuze Han, Yingkai Zhang, Jianan Wang, Qinglin Liu, Wei Yu, Xiaoqian Lv, Jianing Li, Shengping Zhang, Xiangyang Ji, Yuanpei Chen, Yuhan Zhang, Weihang Peng, Liwen Zhang, Zhe Xu, Dingyong Gou, Cong Li, Senyan Xu, Yunkang Zhang, Siyuan Jiang, Xiaoqiang Lu, Licheng Jiao, Fang Liu, Xu Liu, Lingling Li, Wenping Ma, Shuyuan Yang, Haiyang Xie, Jian Zhao, Shihua Huang, Peng Cheng, Xi Shen, Zheng Wang, Shuai An, Caizhi Zhu, Xuelong Li, Tao Zhang, Liang Li, Yu Liu, Chenggang Yan, Gengchen Zhang, Linyan Jiang, Bingyi Song, Zhuoyu An, Haibo Lei, Qing Luo, Jie Song, Yuan Liu, Qihang Li, Haoyuan Zhang, Lingfeng Wang, Wei Chen, Aling Luo, Cheng Li, Jun Cao, Shu Chen, Zifei Dou, Xinyu Liu, Jing Zhang, Kexin Zhang, Yuting Yang, Xuejian Gou, Qinliang Wang, Yang Liu, Shizhan Zhao, Yanzhao Zhang, Libo Yan, Yuwei Guo, Guoxin Li, Qiong Gao, Chenyue Che, Long Sun, Xiang Chen, Hao Li, Jinshan Pan, Chuanlong Xie, Hongming Chen, Mingrui Li, Tianchen Deng, Jingwei Huang, Yufeng Li, Fei Wan, Bingxin Xu, Jian Cheng, Hongzhe Liu, Cheng Xu, Yuxiang Zou, Weiguo Pan, Songyin Dai, Sen Jia, Junpei Zhang, Puhua Chen, Qihang Li,
Abstract要約: 物理に基づくビジョンは、画像から形状、反射率、光の分布、中性などのシーン特性を復元する過程を反転させることを目的としている。深層学習は様々な視覚タスクに対して有望な改善を示しており、物理に基づく視覚と組み合わせることで、これらのアプローチは視覚システムの堅牢性と精度を高めることができる。 CVPR 2024ワークショップで行われたPBDL 2024チャレンジの結果を要約する。
参考スコア（独自算出の注目度）: 211.79824163599872
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The intersection of physics-based vision and deep learning presents an exciting frontier for advancing computer vision technologies. By leveraging the principles of physics to inform and enhance deep learning models, we can develop more robust and accurate vision systems. Physics-based vision aims to invert the processes to recover scene properties such as shape, reflectance, light distribution, and medium properties from images. In recent years, deep learning has shown promising improvements for various vision tasks, and when combined with physics-based vision, these approaches can enhance the robustness and accuracy of vision systems. This technical report summarizes the outcomes of the Physics-Based Vision Meets Deep Learning (PBDL) 2024 challenge, held in CVPR 2024 workshop. The challenge consisted of eight tracks, focusing on Low-Light Enhancement and Detection as well as High Dynamic Range (HDR) Imaging. This report details the objectives, methodologies, and results of each track, highlighting the top-performing solutions and their innovative approaches.
Abstract（参考訳）: 物理に基づくビジョンとディープラーニングの交わりは、コンピュータビジョン技術の進歩にエキサイティングなフロンティアをもたらす。物理の原理を活用して、深層学習モデルの情報提供と強化を行うことで、より堅牢で正確な視覚システムを開発することができる。物理に基づくビジョンは、画像から形状、反射率、光の分布、中性などのシーン特性を復元する過程を反転させることを目的としている。近年、ディープラーニングは様々な視覚タスクに有望な改善を示しており、物理に基づく視覚と組み合わせることで、これらのアプローチは視覚システムの堅牢性と精度を高めることができる。 CVPR 2024ワークショップで行われたPBDL 2024チャレンジの結果を要約する。課題は8つのトラックで構成され、低光強調と検出、ハイダイナミックレンジ(HDR)イメージングに焦点を当てた。本報告では,各トラックの目的,方法論,成果を詳述し,最高性能のソリューションとその革新的なアプローチについて述べる。

関連論文リスト

Do-Undo: Generating and Reversing Physical Actions in Vision-Language Models [57.71440995598757]
我々は,視覚言語モデルにおける重要なギャップに対処するために,Do-Undoタスクとベンチマークを導入する。 Do-Undoは、物理的な行動の結果をシミュレートし、それを正確に反転させるモデルを必要とし、視覚の世界における真の原因と効果を反映している。
論文参考訳（メタデータ） (2025-12-15T18:03:42Z)
Learning to Remove Lens Flare in Event Camera [56.9171469873838]
イベントカメラデータからレンズフレアを除去する最初のフレームワークであるE-DeflareDeflareを提案する。まず、非線形抑制機構の物理基底フォワードモデルを導出した理論基盤を確立する。このベンチマークを利用して、最先端の復元性能を実現するE-DeflareNetを設計する。
論文参考訳（メタデータ） (2025-12-09T18:59:57Z)
PhysHMR: Learning Humanoid Control Policies from Vision for Physically Plausible Human Motion Reconstruction [52.44375492811009]
物理学に基づくシミュレーターにおいて,ヒューマノイド制御のための視覚行動ポリシーを学習する統合フレームワークであるPhysHMRを提案する。我々のアプローチの重要な要素はピクセル・アズ・レイ戦略であり、2次元のキーポイントを3次元空間に上げ、それらを大域空間に変換する。 PhysHMRは多種多様なシナリオにまたがって高忠実で物理的に妥当な動きを生じさせ、視覚的精度と身体的リアリズムの両方において以前のアプローチより優れている。
論文参考訳（メタデータ） (2025-10-02T21:01:11Z)
Computational Imaging for Enhanced Computer Vision [0.0]
本稿では,コンピュータビジョン(CV)応用における計算画像(CI)技術とその変換的影響を包括的に調査する。従来のイメージング手法では、低照度、動きのぼやけ、高ダイナミックレンジといった困難な条件下で、高忠実度な視覚データを提供できない。光場イメージング、高ダイナミックレンジ(ブルーリング)イメージング、デブロアリング、高速イメージング、グラア緩和などの計算イメージング技術は、これらの制限に対処する。
論文参考訳（メタデータ） (2025-09-10T16:02:42Z)
Towards Depth Foundation Model: Recent Trends in Vision-Based Depth Estimation [75.30238170051291]
深さ推定は3Dコンピュータビジョンの基本課題であり、3D再構成、自由視点レンダリング、ロボティクス、自律運転、AR/VR技術といった応用に不可欠である。 LiDARのようなハードウェアセンサーに依存する従来の方法は、しばしば高コスト、低解像度、環境感度によって制限され、現実のシナリオで適用性を制限する。ビジョンベースの手法の最近の進歩は有望な代替手段を提供するが、低容量モデルアーキテクチャやドメイン固有の小規模データセットへの依存のため、一般化と安定性の課題に直面している。
論文参考訳（メタデータ） (2025-07-15T17:59:59Z)
SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning [89.48883747910448]
物理問題に基づく推論のための大規模マルチモーダルベンチマークである SeePhys を提示する。このベンチマークは、物理学の分野にまたがる7つの基本的な領域をカバーし、21のカテゴリの非常に異質なダイアグラムを取り入れている。最も先進的な視覚推論モデル(例えばGemini-2.5-proやo4-mini)でさえ、ベンチマークで60%未満の精度を実現している。
論文参考訳（メタデータ） (2025-05-25T11:28:34Z)
Advances in Radiance Field for Dynamic Scene: From Neural Field to Gaussian Field [85.12359852781216]
本研究では,放射場を用いた動的シーン表現に着目した200以上の論文の体系的分析を行った。我々は,多種多様な方法論的アプローチを統一的な表現的枠組みの下で組織し,永続的な課題の批判的検討と有望な研究方向性を結論づける。
論文参考訳（メタデータ） (2025-05-15T07:51:08Z)
PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding [21.91860938879665]
視覚言語モデル(VLM)は、常識的推論において優れているが、物理世界を理解するのに苦労していることを示す。本稿では、VLMの一般化強度とビジョンモデルの専門知識を組み合わせたフレームワークであるPhysAgentを紹介する。以上の結果から,VLMの物理世界理解能力の向上は,Mokaなどのエージェントの具体化に有効であることが示唆された。
論文参考訳（メタデータ） (2025-01-27T18:59:58Z)
Generative Physical AI in Vision: A Survey [78.07014292304373]
遺伝子人工知能(AI)は、コンピュータビジョンの分野を急速に進歩させ、機械が前例のない高度なビジュアルデータを作成し、解釈できるようにする。この変換は、現実的な画像、ビデオ、および3D/4Dコンテンツを生成するための生成モデルの基礎の上に構築されている。生成モデルが進化して物理リアリズムと動的シミュレーションを統合するにつれ、「世界シミュレータ」として機能する可能性が拡大する。
論文参考訳（メタデータ） (2025-01-19T03:19:47Z)
Spatially Visual Perception for End-to-End Robotic Learning [33.490603706207075]
環境変動に対処するために3次元空間表現を利用する映像ベース空間認識フレームワークを提案する。提案手法は,新しい画像拡張手法であるAugBlenderと,インターネット規模のデータに基づいてトレーニングされた最先端のモノクロ深度推定モデルを統合する。
論文参考訳（メタデータ） (2024-11-26T14:23:42Z)
Low-Light Image Enhancement Framework for Improved Object Detection in Fisheye Lens Datasets [4.170227455727819]
本研究は,魚眼レンズカメラを用いた都市交通監視システムの進化的課題について考察する。フィッシュアイレンズは、1つのフレームで広角と全方位のカバーを提供し、変換性のあるソリューションとなる。これらの課題に触発された本研究では,ランズフォーマーに基づく画像強調フレームワークとアンサンブル学習技術を組み合わせた新しいアプローチを提案する。
論文参考訳（メタデータ） (2024-04-15T18:32:52Z)
Supervised Fine-tuning in turn Improves Visual Foundation Models [74.1760864718129]
2段階のViSFT (Vision SFT) は、視覚基盤モデルの詳細な知識を解き放つために提案される。 4.4B以上のパラメータを持つビジョントランスフォーマーは、様々な外部ベンチマークで改善されている。
論文参考訳（メタデータ） (2024-01-18T18:58:54Z)
Integration and Performance Analysis of Artificial Intelligence and Computer Vision Based on Deep Learning Algorithms [5.734290974917728]
本稿では,ディープラーニングとコンピュータビジョン技術の統合による応用効果の分析に焦点をあてる。ディープラーニングは階層型ニューラルネットワークを構築することで歴史的なブレークスルーを実現し、エンドツーエンドの機能学習と画像の意味的理解を可能にする。コンピュータビジョンの分野で成功した経験は、ディープラーニングアルゴリズムのトレーニングに強力なサポートを提供する。
論文参考訳（メタデータ） (2023-12-20T09:37:06Z)
Vision-based Learning for Drones: A Survey [1.280979348722635]
先進的なサイバー物理システムとしてのドローンは、視覚ベースの学習の出現とともに、変貌を遂げている。このレビューでは、ドローンにおける視覚に基づく学習の包括的概要を提供し、その運用能力の向上における重要な役割を強調している。我々は、単一エージェントシステムからより複雑なマルチエージェントおよび異種システムシナリオまで、学習機能を備えた視覚ベースのドローンの様々な応用について検討する。
論文参考訳（メタデータ） (2023-12-08T12:57:13Z)
Deep Learning for Event-based Vision: A Comprehensive Survey and Benchmarks [55.81577205593956]
イベントカメラはバイオインスパイアされたセンサーで、ピクセルごとの強度の変化を非同期に捉える。深層学習(DL)はこの新興分野に導入され、その可能性のマイニングに活発な研究努力にインスピレーションを与えている。
論文参考訳（メタデータ） (2023-02-17T14:19:28Z)
Physics Embedded Machine Learning for Electromagnetic Data Imaging [83.27424953663986]
電磁法(EM)イメージングは、セキュリティ、バイオメディシン、地球物理学、各種産業のセンシングに広く応用されている。機械学習(ML)技術,特に深層学習(DL)技術は,高速かつ正確な画像化の可能性を秘めている。本稿では、学習に基づくEMイメージングに物理を取り入れる様々なスキームについて検討する。
論文参考訳（メタデータ） (2022-07-26T02:10:15Z)
Deep Learning to See: Towards New Foundations of Computer Vision [88.69805848302266]
この本はコンピュータビジョンの分野における科学的進歩を批判している。情報に基づく自然法則の枠組みにおける視覚の研究を提案する。
論文参考訳（メタデータ） (2022-06-30T15:20:36Z)
Deep Learning for Omnidirectional Vision: A Survey and New Perspectives [7.068031114801553]
本稿では,全方向視覚のためのディープラーニング手法の最近の進歩について,体系的かつ包括的なレビューと分析を行う。 i)全方位画像の原理,ODI上の畳み込み手法,およびデータセットの導入により,2次元平面画像データとの違いと難易度を明らかにすること,(ii)全方位視覚のためのDL手法の構造的・階層的分類,(iii)最新の学習戦略と応用の要約である。
論文参考訳（メタデータ） (2022-05-21T00:19:56Z)
Unadversarial Examples: Designing Objects for Robust Vision [100.4627585672469]
現代の機械学習アルゴリズムの感度を入力摂動に活かし、「ロバストオブジェクト」を設計するフレームワークを開発しています。標準ベンチマークから(シミュレーション中)ロボット工学まで,さまざまな視覚ベースのタスクに対するフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2020-12-22T18:26:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。