論文の概要: LayeredFlow: A Real-World Benchmark for Non-Lambertian Multi-Layer Optical Flow
- arxiv url: http://arxiv.org/abs/2409.05688v1
- Date: Mon, 9 Sep 2024 15:01:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 14:19:16.191692
- Title: LayeredFlow: A Real-World Benchmark for Non-Lambertian Multi-Layer Optical Flow
- Title(参考訳): LayeredFlow: 非線形多層光流のリアルタイムベンチマーク
- Authors: Hongyu Wen, Erich Liang, Jia Deng,
- Abstract要約: 我々は,非ランベルト的物体の光学的流れに対する多層基底真理アノテーションを含む実世界のベンチマークであるLayeredFlowを紹介した。
以前のベンチマークと比較すると、我々のベンチマークはよりシーンとオブジェクトの多様性を示している。
我々は,多層光フローと呼ばれる新しい課題を提案する。
- 参考スコア(独自算出の注目度): 17.883459650744335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving 3D understanding of non-Lambertian objects is an important task with many useful applications, but most existing algorithms struggle to deal with such objects. One major obstacle towards progress in this field is the lack of holistic non-Lambertian benchmarks -- most benchmarks have low scene and object diversity, and none provide multi-layer 3D annotations for objects occluded by transparent surfaces. In this paper, we introduce LayeredFlow, a real world benchmark containing multi-layer ground truth annotation for optical flow of non-Lambertian objects. Compared to previous benchmarks, our benchmark exhibits greater scene and object diversity, with 150k high quality optical flow and stereo pairs taken over 185 indoor and outdoor scenes and 360 unique objects. Using LayeredFlow as evaluation data, we propose a new task called multi-layer optical flow. To provide training data for this task, we introduce a large-scale densely-annotated synthetic dataset containing 60k images within 30 scenes tailored for non-Lambertian objects. Training on our synthetic dataset enables model to predict multi-layer optical flow, while fine-tuning existing optical flow methods on the dataset notably boosts their performance on non-Lambertian objects without compromising the performance on diffuse objects. Data is available at https://layeredflow.cs.princeton.edu.
- Abstract(参考訳): 非ランベルト的オブジェクトの3D理解は、多くの有用なアプリケーションにおいて重要な課題であるが、既存のアルゴリズムはそのようなオブジェクトを扱うのに苦労している。
この分野での進歩に対する大きな障害のひとつは、全体論的な非ランベルトベンチマークの欠如である。ほとんどのベンチマークは、シーンとオブジェクトの多様性が低く、透明な表面で隠されたオブジェクトに対して、多層的な3Dアノテーションを提供しない。
本稿では,非ランベルト的物体の光学的流れに対する多層基底真理アノテーションを含む実世界のベンチマークであるLayeredFlowを紹介する。
従来のベンチマークと比較すると、我々のベンチマークでは、150kの高品質な光学フローと185の屋内・屋外シーンと360のユニークなオブジェクトのステレオペアで、シーンとオブジェクトの多様性が向上している。
評価データとしてLayeredFlowを用い,多層光フローと呼ばれる新しいタスクを提案する。
このタスクのためのトレーニングデータを提供するために,非ランベルト的対象に適した30シーン内60k画像を含む大規模高密度アノテーション付き合成データセットを提案する。
合成データセットのトレーニングにより,多層光学フローの予測が可能となり,既存の光学フロー法を微調整することで,拡散物体の性能を損なうことなく,非ランベルト天体の性能を高めることが期待できる。
データはhttps://layeredflow.cs.princeton.edu.comで入手できる。
関連論文リスト
- DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - Improving Unsupervised Video Object Segmentation via Fake Flow Generation [20.89278343723177]
本稿では,単一画像からの擬似光フローをシミュレートする新しいデータ生成手法を提案する。
光フローマップは深度マップに大きく依存していることから着想を得て,各画像の深度マップを精細化し,拡大することにより,偽の光フローを生成する。
論文 参考訳(メタデータ) (2024-07-16T13:32:50Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Transformer-Based Multi-Object Smoothing with Decoupled Data Association
and Smoothing [20.99082981430798]
マルチオブジェクト追跡(Multi-object Tracking、MOT)は、ある時間ウィンドウ上で、未知および時間変化したオブジェクトの状態軌跡を推定するタスクである。
ディープラーニングベースのアルゴリズムはこの問題に対処する場として考えられるが、正確なマルチオブジェクトモデルが利用できるような環境では広く適用されていない。
本稿では,データアソシエーションタスクをスムースなタスクから切り離すような,この設定に適した新しいDLアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-22T20:24:39Z) - Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast
Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。
このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。
我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文 参考訳(メタデータ) (2023-06-07T17:57:45Z) - Motion-inductive Self-supervised Object Discovery in Videos [99.35664705038728]
本稿では,連続的なRGBフレームの処理モデルを提案し,層状表現を用いて任意のフレーム間の光の流れを推定する。
3つの公開ビデオセグメンテーションデータセットにおいて,従来の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-01T08:38:28Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Objects are Different: Flexible Monocular 3D Object Detection [87.82253067302561]
そこで本研究では,乱れたオブジェクトを明示的に分離し,オブジェクト深度推定のための複数のアプローチを適応的に組み合わせたモノクル3次元オブジェクト検出のためのフレキシブルなフレームワークを提案する。
実験の結果,本手法はkittiベンチマークテストセットにおいて,中等度レベルが27%,硬度が30%と,最先端法を27%上回った。
論文 参考訳(メタデータ) (2021-04-06T07:01:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。