論文の概要: Optimizing GPT for Video Understanding: Zero-Shot Performance and Prompt Engineering
- arxiv url: http://arxiv.org/abs/2502.09573v1
- Date: Thu, 13 Feb 2025 18:31:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:50:52.377107
- Title: Optimizing GPT for Video Understanding: Zero-Shot Performance and Prompt Engineering
- Title(参考訳): 映像理解のためのGPTの最適化:ゼロショット性能とプロンプトエンジニアリング
- Authors: Mark Beliaev, Victor Yang, Madhura Raju, Jiachen Sun, Xinghai Hu,
- Abstract要約: 我々は、ゼロショット分類のためのGPTベースのモデルを探索し、最適化することで、ビデオコンテンツ分類における業界の課題に取り組む。
我々は,迅速な最適化と政策改善を通じて,GPTの性能向上に新たなアプローチを貢献する。
- 参考スコア(独自算出の注目度): 5.076041174073893
- License:
- Abstract: In this study, we tackle industry challenges in video content classification by exploring and optimizing GPT-based models for zero-shot classification across seven critical categories of video quality. We contribute a novel approach to improving GPT's performance through prompt optimization and policy refinement, demonstrating that simplifying complex policies significantly reduces false negatives. Additionally, we introduce a new decomposition-aggregation-based prompt engineering technique, which outperforms traditional single-prompt methods. These experiments, conducted on real industry problems, show that thoughtful prompt design can substantially enhance GPT's performance without additional finetuning, offering an effective and scalable solution for improving video classification systems across various domains in industry.
- Abstract(参考訳): 本研究では,ビデオ品質の7つの重要なカテゴリにまたがるゼロショット分類のためのGPTベースモデルを探索し,最適化することにより,ビデオコンテンツ分類における業界の課題に取り組む。
本稿では,GPTの性能向上のための新しい手法として,迅速な最適化とポリシー改善を行い,複雑なポリシの簡素化が偽陰性を著しく減少させることを示す。
さらに,分解集約に基づく新しいプロンプトエンジニアリング技術を導入し,従来の単発手法よりも優れた性能を示す。
これらの実験は,業界における様々な領域における映像分類システムの改善に有効な,かつスケーラブルなソリューションを提供することによって,GPTの性能を大幅に向上させることができることを示す。
関連論文リスト
- DeCoOp: Robust Prompt Tuning with Out-of-Distribution Detection [52.100335904875614]
そこで我々は,新しいクラス検出器とサブクラス化器を導入し,基本クラスと新クラスの識別性をさらに向上させる,新しいプロンプトチューニング手法であるDecomposed Context Optimization(DeCoOp)を提案する。
11のベンチマークデータセットによる実験結果から、DePTの有効性が検証され、DeCoOpが現在の最先端手法よりも優れており、平均精度が2%向上していることが示された。
論文 参考訳(メタデータ) (2024-06-01T07:46:42Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - Exploiting GPT-4 Vision for Zero-shot Point Cloud Understanding [114.4754255143887]
私たちは、ポイントクラウドでオブジェクトカテゴリを分類する課題に取り組みます。
我々はこれらの課題を克服するためにGPT-4 Vision (GPT-4V) を用いる。
ゼロショットポイントクラウド分類の新しいベンチマークを設定しました。
論文 参考訳(メタデータ) (2024-01-15T10:16:44Z) - A Survey on Super Resolution for video Enhancement Using GAN [0.0]
Generative Adversarial Networksのようなディープラーニングアルゴリズムを用いた超高解像度画像とビデオの最近の発展について紹介する。
低解像度ビデオの視覚的明快さと品質の向上を目指す進歩は、監視技術から医用画像まで、さまざまな分野で大きな可能性を秘めている。
このコレクションは、ジェネレーティブ・アドバイサル・ネットワークの広い分野に展開し、その原則、トレーニング・アプローチ、幅広い領域にわたるアプリケーションについて探求している。
論文 参考訳(メタデータ) (2023-12-27T08:41:38Z) - Clarity ChatGPT: An Interactive and Adaptive Processing System for Image
Restoration and Enhancement [97.41630939425731]
本稿では,ChatGPTの会話インテリジェンスと複数のIRE手法を組み合わせた変換システムを提案する。
ケーススタディでは、Clarity ChatGPTがIREの一般化と相互作用能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-20T11:51:13Z) - Constrained Reinforcement Learning for Short Video Recommendation [18.492477839791274]
ソーシャルメディアプラットフォーム上のショートビデオは、レコメンデーターシステムの最適化に新たな課題をもたらす。
アクター・クリティカルな枠組みに基づく2段階強化学習手法を提案する。
当社のアプローチは,ユーザエクスペリエンスを最適化するために,運用システムで完全にローンチされています。
論文 参考訳(メタデータ) (2022-05-26T09:36:20Z) - Learnable Optimal Sequential Grouping for Video Scene Detection [11.890809661723502]
最適シーケンスグループ(OSG)の能力を学習体制に拡張する。
各種構成下での深層学習ニューラルネットワークへのOSGの導入に関する包括的分析を行う。
論文 参考訳(メタデータ) (2022-05-17T11:45:03Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - Towards Modality Transferable Visual Information Representation with
Optimal Model Compression [67.89885998586995]
本稿では,伝達可能なモダリティの原理を活かした視覚信号表現手法を提案する。
提案するフレームワークは最先端のビデオコーディング標準に実装されている。
論文 参考訳(メタデータ) (2020-08-13T01:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。