論文の概要: Towards Smart Point-and-Shoot Photography
- arxiv url: http://arxiv.org/abs/2505.03638v1
- Date: Tue, 06 May 2025 15:40:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.451446
- Title: Towards Smart Point-and-Shoot Photography
- Title(参考訳): スマートポイントアンドショット撮影に向けて
- Authors: Jiawan Li, Fei Zhou, Zhipeng Zhong, Jiongzhi Lin, Guoping Qiu,
- Abstract要約: われわれは、ユーザーが良い写真を撮れるためのSPASシステムについて紹介する。
我々のSPASは、カメラのポーズを自動的に調整することで、ユーザーがシーンのよい写真を作るのを助けることを提案する。
公開画像合成データセットを用いてSPASシステムの性能を実証する。
- 参考スコア(独自算出の注目度): 16.192062592740154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hundreds of millions of people routinely take photos using their smartphones as point and shoot (PAS) cameras, yet very few would have the photography skills to compose a good shot of a scene. While traditional PAS cameras have built-in functions to ensure a photo is well focused and has the right brightness, they cannot tell the users how to compose the best shot of a scene. In this paper, we present a first of its kind smart point and shoot (SPAS) system to help users to take good photos. Our SPAS proposes to help users to compose a good shot of a scene by automatically guiding the users to adjust the camera pose live on the scene. We first constructed a large dataset containing 320K images with camera pose information from 4000 scenes. We then developed an innovative CLIP-based Composition Quality Assessment (CCQA) model to assign pseudo labels to these images. The CCQA introduces a unique learnable text embedding technique to learn continuous word embeddings capable of discerning subtle visual quality differences in the range covered by five levels of quality description words {bad, poor, fair, good, perfect}. And finally we have developed a camera pose adjustment model (CPAM) which first determines if the current view can be further improved and if so it outputs the adjust suggestion in the form of two camera pose adjustment angles. The two tasks of CPAM make decisions in a sequential manner and each involves different sets of training samples, we have developed a mixture-of-experts model with a gated loss function to train the CPAM in an end-to-end manner. We will present extensive results to demonstrate the performances of our SPAS system using publicly available image composition datasets.
- Abstract(参考訳): 数億人の人々がスマートフォンをポイント・アンド・ショット(PAS)カメラとして日常的に写真を撮っているが、シーンをうまく撮影する写真スキルを持っている人はごくわずかだ。
従来のPASカメラは、写真がよく焦点を合わせ、適切な明るさを持つようにビルトイン機能を備えているが、ユーザーにシーンの最高の撮影方法を伝えることはできない。
本稿では、ユーザーが良い写真を撮れるためのSPASシステムについて紹介する。
我々のSPASは、カメラのポーズを自動的に調整することで、ユーザーがシーンのよい写真を作るのを助けることを提案する。
まず,4000のシーンから320K画像とカメラポーズ情報を含む大規模データセットを構築した。
そこで我々は,これらの画像に擬似ラベルを割り当てる,革新的なCLIPベースの構成品質評価(CCQA)モデルを開発した。
CCQAは、5つの品質記述語 {bad, poor, fair, good, perfect} でカバーされた範囲における微妙な視覚的品質差を識別できる連続語埋め込みを学習するためのユニークな学習可能なテキスト埋め込み技術を導入している。
そして最後に,カメラポーズ調整モデル (CPAM) を開発した。これは,まず,現在のビューをさらに改善できるかどうかを判断し,その調整提案を2つのカメラポーズ調整角度で出力する。
CPAMの2つのタスクが逐次的に決定され、それぞれ異なるトレーニングサンプルが伴う。
公開画像合成データセットを用いてSPASシステムの性能を実証する。
関連論文リスト
- Towards Understanding Camera Motions in Any Video [80.223048294482]
我々は、カメラモーション理解の評価と改善を目的とした大規模なデータセットとベンチマークであるCameraBenchを紹介する。
CameraBenchは、厳格な品質管理プロセスを通じて専門家によって注釈付けされた3,000の多様なインターネットビデオで構成されている。
私たちの貢献の1つは、撮影者との共同で設計されたカメラモーションプリミティブの分類である。
論文 参考訳(メタデータ) (2025-04-21T18:34:57Z) - Redundancy-Aware Camera Selection for Indoor Scene Neural Rendering [54.468355408388675]
カメラの空間的多様性と画像の意味的変動の両方を取り入れた類似度行列を構築した。
カメラ選択を最適化するために,多様性に基づくサンプリングアルゴリズムを適用した。
IndoorTrajという新しいデータセットも開発しています。仮想屋内環境で人間が捉えた、長くて複雑なカメラの動きが含まれています。
論文 参考訳(メタデータ) (2024-09-11T08:36:49Z) - Rawformer: Unpaired Raw-to-Raw Translation for Learnable Camera ISPs [53.68932498994655]
本稿では,多種多様なカメラを用いた生と生の翻訳の未ペアリング学習手法を提案する。
特定のカメラが捉えた生画像をターゲットカメラに正確にマッピングし、学習可能なISPを新しい目に見えないカメラに一般化する。
提案手法は,従来の最先端技術と比較して精度が高く,実際のカメラデータセットに優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T16:17:48Z) - PhotoBot: Reference-Guided Interactive Photography via Natural Language [15.486784377142314]
PhotoBotは、ハイレベルな人間の言語指導とロボット写真家との相互作用に基づく、完全な自動写真取得のためのフレームワークである。
視覚言語モデル(VLM)とオブジェクトマニピュレータを用いて参照画像の特徴付けを行う。
また、ユーザの言語クエリに基づいて、関連する参照画像を取得するために、LLM(Big Language Model)も使用しています。
論文 参考訳(メタデータ) (2024-01-19T23:34:48Z) - DISeR: Designing Imaging Systems with Reinforcement Learning [13.783685993646738]
我々は、文脈自由文法(CFG)として、画像システムの4つの構成要素を定式化し、学習カメラデザイナと自動的に検索することができる。
本稿では、カメラデザイナを強化学習で実装し、画像システム構成の可能な空間をインテリジェントに探索する方法を示す。
論文 参考訳(メタデータ) (2023-09-25T03:35:51Z) - Point-and-Shoot All-in-Focus Photo Synthesis from Smartphone Camera Pair [25.863069406779125]
我々は、メイン(ワイド)およびウルトラワイドカメラからのAIF合成の新しいタスクを導入する。
目標は、超ワイドカメラの助けを借りて、メインカメラの写真の焦点のずれた領域の鮮明な詳細を回収することだ。
初めて、メインカメラとウルトラワイドカメラを用いて、ポイント・アンド・ショットのAIF写真合成に成功した。
論文 参考訳(メタデータ) (2023-04-11T01:09:54Z) - Enhanced Stable View Synthesis [86.69338893753886]
本稿では,自由に動くカメラから撮影した画像から,新しいビュー合成を強化するアプローチを提案する。
導入されたアプローチは、正確な幾何学的足場とカメラのポーズの復元が困難な屋外シーンに焦点を当てている。
論文 参考訳(メタデータ) (2023-03-30T01:53:14Z) - Controllable Image Enhancement [66.18525728881711]
いくつかのパラメータを制御して、複数のスタイルで高品質な画像を生成できる半自動画像強調アルゴリズムを提案する。
エンコーダ・デコーダフレームワークは、リタッチスキルを潜在コードにエンコードし、イメージ信号処理機能のパラメータにデコードする。
論文 参考訳(メタデータ) (2022-06-16T23:54:53Z) - Camera View Adjustment Prediction for Improving Image Composition [14.541539156817045]
本稿では、撮影前にカメラビューの調整方法について、カメラマンに提案する深層学習に基づくアプローチを提案する。
写真が撮られる前に合成を最適化することで、撮影者がより良い写真を撮れるようになる。
論文 参考訳(メタデータ) (2021-04-15T17:18:31Z) - PhotoApp: Photorealistic Appearance Editing of Head Portraits [97.23638022484153]
本稿では,ポートレート画像におけるカメラ視点とシーン照明の高品質な直感的編集手法を提案する。
ほとんどの編集アプローチは、光やカメラステージといった設定でキャプチャされたトレーニングデータを使用した教師あり学習に依存している。
StyleGANの潜在空間で学習する監督問題を設計します。
これは、教師付き学習と生成的敵対的モデリングのベストを組み合わせる。
論文 参考訳(メタデータ) (2021-03-13T08:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。