Fugu-MT 論文翻訳(概要): PhotoBot: Reference-Guided Interactive Photography via Natural Language

論文の概要: PhotoBot: Reference-Guided Interactive Photography via Natural Language

arxiv url: http://arxiv.org/abs/2401.11061v2
Date: Wed, 20 Mar 2024 19:44:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-22 19:17:37.212003
Title: PhotoBot: Reference-Guided Interactive Photography via Natural Language
Title（参考訳）: PhotoBot: 自然言語による参照ガイド付きインタラクティブ写真
Authors: Oliver Limoyo, Jimmy Li, Dmitriy Rivkin, Jonathan Kelly, Gregory Dudek,
Abstract要約: PhotoBotは、ハイレベルな人間の言語指導とロボット写真家との相互作用に基づく、完全な自動写真取得のためのフレームワークである。視覚言語モデル(VLM)とオブジェクトを利用して,テキスト記述による参照画像の特徴付けを行う。テキストベースの推論により,ユーザの言語クエリに基づく参照画像の検索を行う。われわれのユーザー調査によると、PhotoBotが撮影した写真は、人間のフィードバックによって測定された、ユーザー自身が撮影した写真よりも審美的に喜ぶことが多い。
参考スコア（独自算出の注目度）: 15.486784377142314
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce PhotoBot, a framework for fully automated photo acquisition based on an interplay between high-level human language guidance and a robot photographer. We propose to communicate photography suggestions to the user via reference images that are selected from a curated gallery. We leverage a visual language model (VLM) and an object detector to characterize the reference images via textual descriptions and then use a large language model (LLM) to retrieve relevant reference images based on a user's language query through text-based reasoning. To correspond the reference image and the observed scene, we exploit pre-trained features from a vision transformer capable of capturing semantic similarity across marked appearance variations. Using these features, we compute pose adjustments for an RGB-D camera by solving a perspective-n-point (PnP) problem. We demonstrate our approach using a manipulator equipped with a wrist camera. Our user studies show that photos taken by PhotoBot are often more aesthetically pleasing than those taken by users themselves, as measured by human feedback. We also show that PhotoBot can generalize to other reference sources such as paintings.
Abstract（参考訳）: 我々は,ハイレベルな人間の言語指導とロボットカメラマンとの相互作用に基づいた,完全自動写真取得のためのフレームワークPhotoBotを紹介する。本稿では,キュレートされたギャラリーから選択した参照画像を通じて,ユーザに対して写真提案を伝えることを提案する。視覚言語モデル (VLM) とオブジェクト検出器を用いて, テキスト記述による参照画像の特徴付けを行い, テキストベース推論によるユーザの言語クエリに基づく参照画像の検索に, 大規模言語モデル (LLM) を用いる。参照画像と観察シーンを対応付けるために,視覚変換器から事前学習した特徴を利用して,特徴のある外観変化を横断する意味的類似性を捉える。これらの特徴を用いて,視点n-point(PnP)問題を解くことにより,RGB-Dカメラのポーズ調整を計算する。我々は手首カメラを備えたマニピュレータによるアプローチを実証する。われわれのユーザー調査によると、PhotoBotが撮影した写真は、人間のフィードバックによって測定された、ユーザー自身が撮影した写真よりも審美的に喜ぶことが多い。また,PhotoBotが絵画などの参考資料に一般化可能であることも示している。

関連論文リスト

RetouchLLM: Training-free Code-based Image Retouching with Vision Language Models [76.79706360982162]
トレーニング不要なホワイトボックス画像リタッチシステムであるRetouchLLMを提案する。高解像度の画像に直接、解釈可能でコードベースのリタッチを実行する。我々のフレームワークは、人間がマルチステップのリタッチを行う方法と同じような方法で、徐々に画像を強化する。
論文参考訳（メタデータ） (2025-10-09T10:40:49Z)
Fake or Real, Can Robots Tell? Evaluating Embodied Vision-Language Models on Real and 3D-Printed Objects [3.9825600707172986]
本稿では,RGBカメラを搭載したロボットアームによるテーブルトップシーンのキャプション戦略の比較検討を行う。ロボットは複数の視点から物体の画像を収集し,シーン記述を生成する複数のモデルを評価する。実験では, 単一視点と多視点キャプションのトレードオフ, 実世界と3Dプリントオブジェクトの認識の相違について検討した。
論文参考訳（メタデータ） (2025-06-24T12:45:09Z)
Attention-based transformer models for image captioning across languages: An in-depth survey and evaluation [0.0]
本調査では,注目に基づく画像キャプションモデルについてレビューし,これらをトランスフォーマーベース,ディープラーニングベース,ハイブリッドアプローチに分類した。ベンチマークデータセットを調査し、BLEU、METEOR、CIDEr、ROUGEなどの評価指標を検討し、多言語キャプションにおける課題を強調している。我々は、マルチモーダル学習、AIによるアシスタントのリアルタイム応用、医療、法医学的分析など、将来の研究方向を特定する。
論文参考訳（メタデータ） (2025-06-03T22:18:19Z)
Vision-Speech Models: Teaching Speech Models to Converse about Images [67.62394024470528]
我々は、MoshiVisを導入し、最近の対話音声LLM、Moshiを軽量適応モジュールを通して視覚的に入力する。追加の動的ゲーティング機構により、モデルが視覚的な入力と無関係な会話トピックをより簡単に切り替えることができる。音声とテキストの両方のプロンプトを用いて下流視覚理解タスクのモデルを評価し,MoshiVisとのインタラクションの質的なサンプルを報告する。
論文参考訳（メタデータ） (2025-03-19T18:40:45Z)
Multilingual Vision-Language Pre-training for the Remote Sensing Domain [4.118895088882213]
コントラスト言語-画像事前学習(CLIP)に基づく手法は、現在、リモートセンシングデータを含む視覚・言語タスクをサポートするために広く使われている。本研究は,多言語CLIPモデルの微調整を探求する,リモートセンシング領域のための新しいビジョン・アンド・ランゲージモデルを提案する。提案したモデルでは,Remote Sensing Multilingual CLIP (RS-M-CLIP) と名づけた。
論文参考訳（メタデータ） (2024-10-30T18:13:11Z)
Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文参考訳（メタデータ） (2024-05-21T18:02:07Z)
Large Language Models for Captioning and Retrieving Remote Sensing Images [4.499596985198142]
RS-CapRetはリモートセンシングタスクのためのVision and Languageメソッドである。リモートセンシング画像の記述を生成し、テキスト記述から画像を取得することができる。
論文参考訳（メタデータ） (2024-02-09T15:31:01Z)
User-Aware Prefix-Tuning is a Good Learner for Personalized Image Captioning [35.211749514733846]
従来の画像キャプション方式は、ユーザの好みや特徴を無視することが多い。既存のほとんどの手法は、メモリネットワークやトランスフォーマーによるユーザコンテキストの融合プロセスを強調している。本稿では,ユーザコンテキストを利用したパーソナライズされた画像キャプションフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-08T02:08:00Z)
Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。 COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文参考訳（メタデータ） (2022-07-26T19:35:49Z)
Real-Time Neural Character Rendering with Pose-Guided Multiplane Images [75.62730144924566]
リアルなシーンでアニマタブルなキャラクタをフォトリアリスティックな画質でレンダリングできるポーズ誘導多面体画像(MPI)合成を提案する。我々は、移動物体の駆動信号とともに多視点画像をキャプチャするために、ポータブルカメラリグを使用します。
論文参考訳（メタデータ） (2022-04-25T17:51:38Z)
Visual Information Guided Zero-Shot Paraphrase Generation [71.33405403748237]
ペア画像キャプチャデータのみに基づく視覚情報誘導ゼロショットパラフレーズ生成(ViPG)を提案する。画像キャプションモデルとパラフレーズモデルとを共同で訓練し、画像キャプションモデルを活用してパラフレーズモデルのトレーニングを指導する。自動評価と人的評価の両方は、我々のモデルが関係性、流布度、多様性に優れたパラフレーズを生成できることを示している。
論文参考訳（メタデータ） (2022-01-22T18:10:39Z)
Exploring Explicit and Implicit Visual Relationships for Image Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文参考訳（メタデータ） (2021-05-06T01:47:51Z)
Telling the What while Pointing the Where: Fine-grained Mouse Trace and Language Supervision for Improved Image Retrieval [60.24860627782486]
きめ細かい画像検索は、しばしば、探しているコンテンツがどこにあるかを表現する能力を必要とする。本稿では,ユーザが音声自然言語(“What”)とマウスが空のキャンバス(“where”)にトレースした画像を同時に記述する画像検索装置について述べる。我々のモデルは、この空間的ガイダンスを考慮に入れ、テキストのみの等価システムと比較して、より正確な検索結果を提供する。
論文参考訳（メタデータ） (2021-02-09T17:54:34Z)
Batteries, camera, action! Learning a semantic control space for expressive robot cinematography [15.895161373307378]
我々は,意味空間における複雑なカメラ位置決めパラメータの編集を可能にする,データ駆動型フレームワークを開発した。まず,写真実写シミュレータにおいて,多様な撮影範囲を持つ映像クリップのデータベースを作成する。クラウドソーシングフレームワークには何百人もの参加者が参加して,各クリップのセマンティック記述子セットのスコアを取得しています。
論文参考訳（メタデータ） (2020-11-19T21:56:53Z)
Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文参考訳（メタデータ） (2020-08-11T07:07:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。