Fugu-MT 論文翻訳(概要): Camera Control at the Edge with Language Models for Scene Understanding

論文の概要: Camera Control at the Edge with Language Models for Scene Understanding

arxiv url: http://arxiv.org/abs/2505.06402v1
Date: Fri, 09 May 2025 20:00:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 20:21:48.826184
Title: Camera Control at the Edge with Language Models for Scene Understanding
Title（参考訳）: 場面理解のための言語モデルを用いたエッジカメラ制御
Authors: Alexiy Buynitsky, Sina Ehsani, Bhanu Pallakonda, Pragyana Mishra,
Abstract要約: OPUSはLarge Language Model(LLM)を使用してPan-Tilt-Zoom(PTZ)カメラを制御するフレームワークである。ベンチマークテストでは、従来の言語モデル手法とより複雑なプロンプト手法の両方で大幅に性能が向上した。 OPUSは、カメラシステムと対話するための対話的方法を提供し、ユーザーがカメラ技術を制御し利用する方法において、大きな進歩を示している。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present Optimized Prompt-based Unified System (OPUS), a framework that utilizes a Large Language Model (LLM) to control Pan-Tilt-Zoom (PTZ) cameras, providing contextual understanding of natural environments. To achieve this goal, the OPUS system improves cost-effectiveness by generating keywords from a high-level camera control API and transferring knowledge from larger closed-source language models to smaller ones through Supervised Fine-Tuning (SFT) on synthetic data. This enables efficient edge deployment while maintaining performance comparable to larger models like GPT-4. OPUS enhances environmental awareness by converting data from multiple cameras into textual descriptions for language models, eliminating the need for specialized sensory tokens. In benchmark testing, our approach significantly outperformed both traditional language model techniques and more complex prompting methods, achieving a 35% improvement over advanced techniques and a 20% higher task accuracy compared to closed-source models like Gemini Pro. The system demonstrates OPUS's capability to simplify PTZ camera operations through an intuitive natural language interface. This approach eliminates the need for explicit programming and provides a conversational method for interacting with camera systems, representing a significant advancement in how users can control and utilize PTZ camera technology.
Abstract（参考訳）: 本稿では,Pan-Tilt-Zoom(PTZ)カメラの制御にLarge Language Model(LLM)を用いたOPUS(Optimized Prompt-based Unified System)を提案する。この目的を達成するため、OPUSシステムは、高レベルのカメラ制御APIからキーワードを生成し、より大規模なクローズドソース言語モデルからより小さなものへの知識を合成データにスーパービジョンファインチューニング(SFT)を通して伝達することにより、コスト効率を向上させる。これにより、GPT-4のような大型モデルに匹敵するパフォーマンスを維持しながら、効率的なエッジデプロイメントが可能になる。 OPUSは、複数のカメラからのデータを言語モデルのテキスト記述に変換することで、環境意識を高める。ベンチマークテストでは,従来の言語モデル手法とより複雑なプロンプト手法の両方に優れ,高度な技術よりも35%向上し,Gemini Proのようなクローズドソースモデルに比べて20%高いタスク精度を実現した。このシステムは、直感的な自然言語インタフェースを通じてPTZカメラ操作を単純化するOPUSの機能を示す。このアプローチは、明示的なプログラミングの必要性を排除し、ユーザがPTZカメラ技術を制御し利用する方法において、大きな進歩を示す、カメラシステムと対話するための対話的方法を提供する。

関連論文リスト

EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。 EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-02T23:00:31Z)
ChatCam: Empowering Camera Control through Conversational AI [67.31920821192323]
ChatCamは、ユーザーとの会話を通じてカメラの動きをナビゲートするシステムである。そこで本研究では,テキスト条件付きカメラ軌道生成のためのGPTに基づく自己回帰モデルであるCineGPTを提案する。また、正確なカメラ軌道配置を保証するアンカー決定器も開発した。
論文参考訳（メタデータ） (2024-09-25T20:13:41Z)
Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning [0.9561495813823734]
我々はNLIデータセットに対して対照的な微調整を行う。 MiniCPMは、平均56.33%のパフォーマンス向上の最も重要な改善を示している。
論文参考訳（メタデータ） (2024-08-01T16:31:35Z)
SSP: A Simple and Safe automatic Prompt engineering method towards realistic image synthesis on LVM [10.555398359606922]
最適なカメラ記述を提供することにより、画像生成品質を向上させるためのシンプルで安全なプロンプトエンジニアリング手法(SSP)を提案する。 SSPは、他と比較して平均16%のセマンティック一貫性を改善し、安全性指標は48.9%向上した。
論文参考訳（メタデータ） (2024-01-02T09:51:39Z)
Fine-grained Controllable Video Generation via Object Appearance and Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。 FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文参考訳（メタデータ） (2023-12-05T17:47:33Z)
TLControl: Trajectory and Language Control for Human Motion Synthesis [68.09806223962323]
本稿では,人間のリアルな動き合成のための新しい手法であるTLControlを提案する。低レベルのTrajectoryと高レベルのLanguage semanticsコントロールが組み込まれている。インタラクティブで高品質なアニメーション生成には実用的である。
論文参考訳（メタデータ） (2023-11-28T18:54:16Z)
Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。 Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文参考訳（メタデータ） (2023-10-08T03:35:27Z)
Reinforced UI Instruction Grounding: Towards a Generic UI Task Automation API [17.991044940694778]
汎用的なUIタスク自動化エグゼキュータとして、与えられたUIスクリーンショットに自然言語命令をベースとしたマルチモーダルモデルを構築します。画像からテキストまでの事前学習知識の活用を容易にするため,画素からシーケンスまでのパラダイムを踏襲する。提案する強化UI命令グラウンドモデルでは,最先端の手法よりも明確なマージンで性能が向上する。
論文参考訳（メタデータ） (2023-10-07T07:22:41Z)
Bootstrapping Vision-Language Learning with Decoupled Language Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文参考訳（メタデータ） (2023-07-13T21:08:15Z)
Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。 C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文参考訳（メタデータ） (2021-09-02T09:10:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。