論文の概要: Saliency-based Multiple Region of Interest Detection from a Single
360{\deg} image
- arxiv url: http://arxiv.org/abs/2209.03656v1
- Date: Thu, 8 Sep 2022 09:06:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 13:32:39.351558
- Title: Saliency-based Multiple Region of Interest Detection from a Single
360{\deg} image
- Title(参考訳): 単一の360{\deg}画像からの塩分に基づく複数利子検出領域
- Authors: Yuuki Sawabe, Satoshi Ikehata, Kiyoharu Aizawa
- Abstract要約: 本研究では,視覚的サリエンシを手がかりとして,単一の360度画像から関心領域(RoI)の最適セットを予測する手法を提案する。
提案手法は,入力360deg画像を適切に要約した領域を選択することができることを示す主観評価を行う。
- 参考スコア(独自算出の注目度): 40.02598009484401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 360{\deg} images are informative -- it contains omnidirectional visual
information around the camera. However, the areas that cover a 360{\deg} image
is much larger than the human's field of view, therefore important information
in different view directions is easily overlooked. To tackle this issue, we
propose a method for predicting the optimal set of Region of Interest (RoI)
from a single 360{\deg} image using the visual saliency as a clue. To deal with
the scarce, strongly biased training data of existing single 360{\deg} image
saliency prediction dataset, we also propose a data augmentation method based
on the spherical random data rotation. From the predicted saliency map and
redundant candidate regions, we obtain the optimal set of RoIs considering both
the saliency within a region and the Interaction-Over-Union (IoU) between
regions. We conduct the subjective evaluation to show that the proposed method
can select regions that properly summarize the input 360{\deg} image.
- Abstract(参考訳): 360{\deg}画像は、カメラ周辺の全方向の視覚情報を含んでいる。
しかし、360{\deg}画像をカバーする領域は人間の視野よりもはるかに大きいため、異なる視点における重要な情報は容易に見落としてしまう。
この問題に対処するために,視覚的サリエンシを手がかりとして,単一の360{\deg}画像から関心領域(RoI)の最適セットを予測する手法を提案する。
また,既存のsingle 360{\deg}画像サリエンシー予測データセットの希少で偏りの強いトレーニングデータに対処するために,球面ランダムデータ回転に基づくデータ拡張法を提案する。
予測された塩分濃度マップと冗長な候補領域から,地域内の塩分濃度と地域間の相互作用-Over-Union(IoU)を考慮したRoIsの最適セットを得る。
提案手法は,入力した360{\deg}画像を適切に要約する領域を選択できることを示すために主観評価を行う。
関連論文リスト
- Sp2360: Sparse-view 360 Scene Reconstruction using Cascaded 2D Diffusion Priors [51.36238367193988]
潜時拡散モデル(LDM)を用いた360度3次元シーンのスパースビュー再構成に挑戦する。
SparseSplat360は,未完成の細部を埋めたり,新しいビューをクリーンにするために,インペイントとアーティファクト除去のカスケードを利用する手法である。
提案手法は,9つの入力ビューから360度映像全体を生成する。
論文 参考訳(メタデータ) (2024-05-26T11:01:39Z) - HawkI: Homography & Mutual Information Guidance for 3D-free Single Image to Aerial View [67.8213192993001]
本稿では,テキストと模範画像から空中視像を合成するためのHawkeIを提案する。
HawkIは、予め訓練されたテキストから2次元の安定拡散モデルに入力画像からの視覚的特徴をブレンドする。
推測において、HawkeIは、入力画像の意味的詳細を忠実に複製するために生成されたイメージを操るために、ユニークな相互情報ガイダンスの定式化を用いる。
論文 参考訳(メタデータ) (2023-11-27T01:41:25Z) - Intersection Prediction from Single 360{\deg} Image via Deep Detection
of Possible Direction of Travel [41.52995462411978]
360degビデオにおけるフレーム間の交差を識別する新しい手法を提案する。
交差識別を標準的な二分分類タスクとして定式化する代わりに、旅行の可能な方向の数に基づいて交差点を識別する。
本手法は88%の精度を達成し, 直接的2値分類法よりも有意に優れている。
論文 参考訳(メタデータ) (2022-04-10T08:53:14Z) - 360 Depth Estimation in the Wild -- The Depth360 Dataset and the SegFuse
Network [35.03201732370496]
全方位画像からの一視点深度推定は、自律運転やシーン再構築といった幅広い応用で人気を博している。
本研究ではまず,トレーニングデータ問題に対処するため,Depth360と呼ばれるさまざまな設定の大規模データセットを構築した。
次に、人間の眼を模倣してデータセットから効果的に学習する、エンドツーエンドのマルチタスク学習ネットワークであるSegFuseを提案する。
論文 参考訳(メタデータ) (2022-02-16T11:56:31Z) - Field-of-View IoU for Object Detection in 360{\deg} Images [36.72543749626039]
本研究では,FoV-IoU(FoV-IoU)と360deg画像における物体検出のための360Augmentationという2つの基本手法を提案する。
FoV-IoUは2つの視野境界ボックスの交叉結合を球面画像で計算し、トレーニング、推論、評価に使用できる。
360Augmentationは、球面イメージをランダムに回転させ、球面から平面への投影によるバイアスを解決する360degオブジェクト検出タスクに特有のデータ拡張技術である。
論文 参考訳(メタデータ) (2022-02-07T14:01:59Z) - SphereSR: 360{\deg} Image Super-Resolution with Arbitrary Projection via
Continuous Spherical Image Representation [27.10716804733828]
LR 360デジメージから連続的な球面画像表現を生成するための新しいフレームワークを提案する。
具体的には、まず、イコサヘドロンに基づく球面データを表す特徴抽出モジュールを提案する。
次に、球面座標におけるRGB値を予測するために、球面局所暗黙画像関数(SLIIF)を提案する。
論文 参考訳(メタデータ) (2021-12-13T10:16:51Z) - Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文 参考訳(メタデータ) (2021-03-14T11:18:50Z) - Where am I looking at? Joint Location and Orientation Estimation by
Cross-View Matching [95.64702426906466]
ジオタグ付き空中画像の大規模データベースを考えると、クロスビューなジオローカライゼーションは問題となる。
地上画像と空中画像の向きを知ることは、これらの2つのビュー間のあいまいさを著しく軽減することができる。
局所化時の横方向のアライメントを推定する動的類似マッチングネットワークを設計する。
論文 参考訳(メタデータ) (2020-05-08T05:21:16Z) - A Fixation-based 360{\deg} Benchmark Dataset for Salient Object
Detection [21.314578493964333]
パノラマコンテンツ中の固定予測(FP)は、仮想現実(VR)アプリケーションの普及傾向とともに広く研究されている。
静止物体検出(SOD)は、実際のシーンを表すデータセットが欠如しているため、360度画像ではめったに探索されていない。
論文 参考訳(メタデータ) (2020-01-22T11:16:39Z) - Visual Question Answering on 360{\deg} Images [96.00046925811515]
VQA 360は、360度画像上で視覚的な質問に答える新しいタスクである。
最初のVQA 360データセットを収集し、様々な質問タイプに対して、約17,000の現実世界の画像検索用トリプルを含む。
論文 参考訳(メタデータ) (2020-01-10T08:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。