論文の概要: PhotoBot: Reference-Guided Interactive Photography via Natural Language
- arxiv url: http://arxiv.org/abs/2401.11061v1
- Date: Fri, 19 Jan 2024 23:34:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 18:22:19.543103
- Title: PhotoBot: Reference-Guided Interactive Photography via Natural Language
- Title(参考訳): PhotoBot: 自然言語による参照ガイド付きインタラクティブ写真
- Authors: Oliver Limoyo, Jimmy Li, Dmitriy Rivkin, Jonathan Kelly, and Gregory
Dudek
- Abstract要約: PhotoBotは、ハイレベルな人間の言語指導とロボット写真家との対話に基づく、写真の自動取得のためのフレームワークである。
視覚言語モデル(VLM)とオブジェクトを用いて参照画像の特徴付けを行う。
テキストベースの推論により,ユーザの言語クエリに基づく関連画像の検索を行う。
- 参考スコア(独自算出の注目度): 15.486784377142314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce PhotoBot, a framework for automated photo acquisition based on
an interplay between high-level human language guidance and a robot
photographer. We propose to communicate photography suggestions to the user via
a reference picture that is retrieved from a curated gallery. We exploit a
visual language model (VLM) and an object detector to characterize reference
pictures via textual descriptions and use a large language model (LLM) to
retrieve relevant reference pictures based on a user's language query through
text-based reasoning. To correspond the reference picture and the observed
scene, we exploit pre-trained features from a vision transformer capable of
capturing semantic similarity across significantly varying images. Using these
features, we compute pose adjustments for an RGB-D camera by solving a
Perspective-n-Point (PnP) problem. We demonstrate our approach on a real-world
manipulator equipped with a wrist camera. Our user studies show that photos
taken by PhotoBot are often more aesthetically pleasing than those taken by
users themselves, as measured by human feedback.
- Abstract(参考訳): 本稿では,ハイレベルな人間の言語指導とロボットカメラマンとの相互作用に基づく自動写真取得フレームワークPhotoBotを紹介する。
本稿では,キュレートギャラリーから取得した参照画像を用いて,写真提案をユーザに伝えることを提案する。
本研究では,視覚言語モデル (VLM) とオブジェクト検出器を用いて,テキスト記述による参照画像の特徴付けを行い,テキストベースの推論によるユーザの言語クエリに基づく関連画像の検索を行う。
参照画像と観測シーンに対応するために,視覚トランスフォーマから事前訓練された特徴を活用し,異なる画像間の意味的類似性を捉える。
これらの特徴を用いて,PnP問題を解くことにより,RGB-Dカメラのポーズ調整を行う。
我々は、手首カメラを備えた現実世界のマニピュレータへのアプローチを実証する。
われわれのユーザー調査によると、PhotoBotが撮影した写真は、人間のフィードバックによって測定された、ユーザー自身が撮影した写真よりも審美的に喜ぶことが多い。
関連論文リスト
- Multilingual Vision-Language Pre-training for the Remote Sensing Domain [4.118895088882213]
コントラスト言語-画像事前学習(CLIP)に基づく手法は、現在、リモートセンシングデータを含む視覚・言語タスクをサポートするために広く使われている。
本研究は,多言語CLIPモデルの微調整を探求する,リモートセンシング領域のための新しいビジョン・アンド・ランゲージモデルを提案する。
提案したモデルでは,Remote Sensing Multilingual CLIP (RS-M-CLIP) と名づけた。
論文 参考訳(メタデータ) (2024-10-30T18:13:11Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Large Language Models for Captioning and Retrieving Remote Sensing
Images [4.499596985198142]
RS-CapRetはリモートセンシングタスクのためのVision and Languageメソッドである。
リモートセンシング画像の記述を生成し、テキスト記述から画像を取得することができる。
論文 参考訳(メタデータ) (2024-02-09T15:31:01Z) - User-Aware Prefix-Tuning is a Good Learner for Personalized Image
Captioning [35.211749514733846]
従来の画像キャプション方式は、ユーザの好みや特徴を無視することが多い。
既存のほとんどの手法は、メモリネットワークやトランスフォーマーによるユーザコンテキストの融合プロセスを強調している。
本稿では,ユーザコンテキストを利用したパーソナライズされた画像キャプションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-08T02:08:00Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Real-Time Neural Character Rendering with Pose-Guided Multiplane Images [75.62730144924566]
リアルなシーンでアニマタブルなキャラクタをフォトリアリスティックな画質でレンダリングできるポーズ誘導多面体画像(MPI)合成を提案する。
我々は、移動物体の駆動信号とともに多視点画像をキャプチャするために、ポータブルカメラリグを使用します。
論文 参考訳(メタデータ) (2022-04-25T17:51:38Z) - Visual Information Guided Zero-Shot Paraphrase Generation [71.33405403748237]
ペア画像キャプチャデータのみに基づく視覚情報誘導ゼロショットパラフレーズ生成(ViPG)を提案する。
画像キャプションモデルとパラフレーズモデルとを共同で訓練し、画像キャプションモデルを活用してパラフレーズモデルのトレーニングを指導する。
自動評価と人的評価の両方は、我々のモデルが関係性、流布度、多様性に優れたパラフレーズを生成できることを示している。
論文 参考訳(メタデータ) (2022-01-22T18:10:39Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z) - Telling the What while Pointing the Where: Fine-grained Mouse Trace and
Language Supervision for Improved Image Retrieval [60.24860627782486]
きめ細かい画像検索は、しばしば、探しているコンテンツがどこにあるかを表現する能力を必要とする。
本稿では,ユーザが音声自然言語(“What”)とマウスが空のキャンバス(“where”)にトレースした画像を同時に記述する画像検索装置について述べる。
我々のモデルは、この空間的ガイダンスを考慮に入れ、テキストのみの等価システムと比較して、より正確な検索結果を提供する。
論文 参考訳(メタデータ) (2021-02-09T17:54:34Z) - Batteries, camera, action! Learning a semantic control space for
expressive robot cinematography [15.895161373307378]
我々は,意味空間における複雑なカメラ位置決めパラメータの編集を可能にする,データ駆動型フレームワークを開発した。
まず,写真実写シミュレータにおいて,多様な撮影範囲を持つ映像クリップのデータベースを作成する。
クラウドソーシングフレームワークには何百人もの参加者が参加して,各クリップのセマンティック記述子セットのスコアを取得しています。
論文 参考訳(メタデータ) (2020-11-19T21:56:53Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。