論文の概要: Camera Control at the Edge with Language Models for Scene Understanding
- arxiv url: http://arxiv.org/abs/2505.06402v1
- Date: Fri, 09 May 2025 20:00:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.826184
- Title: Camera Control at the Edge with Language Models for Scene Understanding
- Title(参考訳): 場面理解のための言語モデルを用いたエッジカメラ制御
- Authors: Alexiy Buynitsky, Sina Ehsani, Bhanu Pallakonda, Pragyana Mishra,
- Abstract要約: OPUSはLarge Language Model(LLM)を使用してPan-Tilt-Zoom(PTZ)カメラを制御するフレームワークである。
ベンチマークテストでは、従来の言語モデル手法とより複雑なプロンプト手法の両方で大幅に性能が向上した。
OPUSは、カメラシステムと対話するための対話的方法を提供し、ユーザーがカメラ技術を制御し利用する方法において、大きな進歩を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present Optimized Prompt-based Unified System (OPUS), a framework that utilizes a Large Language Model (LLM) to control Pan-Tilt-Zoom (PTZ) cameras, providing contextual understanding of natural environments. To achieve this goal, the OPUS system improves cost-effectiveness by generating keywords from a high-level camera control API and transferring knowledge from larger closed-source language models to smaller ones through Supervised Fine-Tuning (SFT) on synthetic data. This enables efficient edge deployment while maintaining performance comparable to larger models like GPT-4. OPUS enhances environmental awareness by converting data from multiple cameras into textual descriptions for language models, eliminating the need for specialized sensory tokens. In benchmark testing, our approach significantly outperformed both traditional language model techniques and more complex prompting methods, achieving a 35% improvement over advanced techniques and a 20% higher task accuracy compared to closed-source models like Gemini Pro. The system demonstrates OPUS's capability to simplify PTZ camera operations through an intuitive natural language interface. This approach eliminates the need for explicit programming and provides a conversational method for interacting with camera systems, representing a significant advancement in how users can control and utilize PTZ camera technology.
- Abstract(参考訳): 本稿では,Pan-Tilt-Zoom(PTZ)カメラの制御にLarge Language Model(LLM)を用いたOPUS(Optimized Prompt-based Unified System)を提案する。
この目的を達成するため、OPUSシステムは、高レベルのカメラ制御APIからキーワードを生成し、より大規模なクローズドソース言語モデルからより小さなものへの知識を合成データにスーパービジョンファインチューニング(SFT)を通して伝達することにより、コスト効率を向上させる。
これにより、GPT-4のような大型モデルに匹敵するパフォーマンスを維持しながら、効率的なエッジデプロイメントが可能になる。
OPUSは、複数のカメラからのデータを言語モデルのテキスト記述に変換することで、環境意識を高める。
ベンチマークテストでは,従来の言語モデル手法とより複雑なプロンプト手法の両方に優れ,高度な技術よりも35%向上し,Gemini Proのようなクローズドソースモデルに比べて20%高いタスク精度を実現した。
このシステムは、直感的な自然言語インタフェースを通じてPTZカメラ操作を単純化するOPUSの機能を示す。
このアプローチは、明示的なプログラミングの必要性を排除し、ユーザがPTZカメラ技術を制御し利用する方法において、大きな進歩を示す、カメラシステムと対話するための対話的方法を提供する。
関連論文リスト
- EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - ChatCam: Empowering Camera Control through Conversational AI [67.31920821192323]
ChatCamは、ユーザーとの会話を通じてカメラの動きをナビゲートするシステムである。
そこで本研究では,テキスト条件付きカメラ軌道生成のためのGPTに基づく自己回帰モデルであるCineGPTを提案する。
また、正確なカメラ軌道配置を保証するアンカー決定器も開発した。
論文 参考訳(メタデータ) (2024-09-25T20:13:41Z) - Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning [0.9561495813823734]
我々はNLIデータセットに対して対照的な微調整を行う。
MiniCPMは、平均56.33%のパフォーマンス向上の最も重要な改善を示している。
論文 参考訳(メタデータ) (2024-08-01T16:31:35Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Bootstrapping Vision-Language Learning with Decoupled Language
Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。
われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。
我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文 参考訳(メタデータ) (2023-07-13T21:08:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。