論文の概要: Optimizing GPT for Video Understanding: Zero-Shot Performance and Prompt Engineering
- arxiv url: http://arxiv.org/abs/2502.09573v1
- Date: Thu, 13 Feb 2025 18:31:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 20:05:35.386909
- Title: Optimizing GPT for Video Understanding: Zero-Shot Performance and Prompt Engineering
- Title(参考訳): 映像理解のためのGPTの最適化:ゼロショット性能とプロンプトエンジニアリング
- Authors: Mark Beliaev, Victor Yang, Madhura Raju, Jiachen Sun, Xinghai Hu,
- Abstract要約: 我々は、ゼロショット分類のためのGPTベースのモデルを探索し、最適化することで、ビデオコンテンツ分類における業界の課題に取り組む。
我々は,迅速な最適化と政策改善を通じて,GPTの性能向上に新たなアプローチを貢献する。
- 参考スコア(独自算出の注目度): 5.076041174073893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we tackle industry challenges in video content classification by exploring and optimizing GPT-based models for zero-shot classification across seven critical categories of video quality. We contribute a novel approach to improving GPT's performance through prompt optimization and policy refinement, demonstrating that simplifying complex policies significantly reduces false negatives. Additionally, we introduce a new decomposition-aggregation-based prompt engineering technique, which outperforms traditional single-prompt methods. These experiments, conducted on real industry problems, show that thoughtful prompt design can substantially enhance GPT's performance without additional finetuning, offering an effective and scalable solution for improving video classification systems across various domains in industry.
- Abstract(参考訳): 本研究では,ビデオ品質の7つの重要なカテゴリにまたがるゼロショット分類のためのGPTベースモデルを探索し,最適化することにより,ビデオコンテンツ分類における業界の課題に取り組む。
本稿では,GPTの性能向上のための新しい手法として,迅速な最適化とポリシー改善を行い,複雑なポリシの簡素化が偽陰性を著しく減少させることを示す。
さらに,分解集約に基づく新しいプロンプトエンジニアリング技術を導入し,従来の単発手法よりも優れた性能を示す。
これらの実験は,業界における様々な領域における映像分類システムの改善に有効な,かつスケーラブルなソリューションを提供することによって,GPTの性能を大幅に向上させることができることを示す。
関連論文リスト
- Beyond Degradation Redundancy: Contrastive Prompt Learning for All-in-One Image Restoration [109.38288333994407]
コントラスト・プロンプト・ラーニング(Contrastive Prompt Learning, CPL)は、プロンプト・タスクのアライメントを根本的に強化する新しいフレームワークである。
本フレームワークは,パラメータ効率を保ちながら,新たな最先端性能を確立し,統一画像復元のための原理的ソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-14T08:24:57Z) - VPO: Aligning Text-to-Video Generation Models with Prompt Optimization [80.86205966195593]
ビデオ生成モデルは、通常、高度に詳細で慎重に記述されたテキストとビデオのペアで訓練される。
VPOは3つの基本原則(無害性、正確性、有用性)に基づいてプロンプトを最適化する、原則化されたフレームワークです。
実験の結果,VPOは基準法に比べて安全性,アライメント,画質を著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-03-26T12:28:20Z) - Simulating Filter Bubble on Short-video Recommender System with Large Language Model Agents [24.570722028960844]
本稿では,大規模言語モデルに基づくシミュレーションフレームワークを用いて,推薦アルゴリズムとユーザフィードバックのダイナミクスを明らかにする。
我々は、コンテンツ均質化を悪化させる人口動態の特徴やカテゴリーアトラクションなどの重要な要因を同定する。
我々は、女性や低所得者などの脆弱なグループに対する株式の保護について提案する。
論文 参考訳(メタデータ) (2025-03-23T10:35:58Z) - Beyond Prompt Content: Enhancing LLM Performance via Content-Format Integrated Prompt Optimization [17.383340746120727]
大規模言語モデル(LLM)は、様々なタスクにまたがって重要な能力を示しており、実世界の有効性は、しばしばプロンプト設計によって引き起こされる。
本稿では,コンテント形式統合プロンプト最適化(CFPO)について紹介する。
論文 参考訳(メタデータ) (2025-02-06T18:36:44Z) - IPO: Iterative Preference Optimization for Text-to-Video Generation [10.625127393884462]
人間のフィードバックを取り入れて生成した映像の質を高めるための反復選好最適化手法を提案する。
IPOは、直接選好最適化(Direct Preference Optimization)やポイントワイズスコア(point-wise score)のように、ビデオ世代をペアワイズランキングで正当化する批判モデルを活用する。
さらに、IPOは批判モデルにマルチモダリティの大規模言語モデルを導入し、リトレーニングや緩和を必要とせず、自動的に好みラベルを割り当てることを可能にする。
論文 参考訳(メタデータ) (2025-02-04T08:14:34Z) - Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM [54.2320450886902]
テキスト・ビデオ・モデルは高品質のテキスト・ビデオ・ペアを最適化することで顕著な進歩を遂げた。
現在の精製の自動化手法は、モダリティ・一貫性、コスト分散、モデルウナウエアといった課題に直面する。
Prompt-A-Videoは、特定のビデオ拡散モデルに合わせた、ビデオ中心、労働自由、調整されたプロンプトの製作に優れる。
論文 参考訳(メタデータ) (2024-12-19T18:32:21Z) - DeCoOp: Robust Prompt Tuning with Out-of-Distribution Detection [52.100335904875614]
そこで我々は,新しいクラス検出器とサブクラス化器を導入し,基本クラスと新クラスの識別性をさらに向上させる,新しいプロンプトチューニング手法であるDecomposed Context Optimization(DeCoOp)を提案する。
11のベンチマークデータセットによる実験結果から、DePTの有効性が検証され、DeCoOpが現在の最先端手法よりも優れており、平均精度が2%向上していることが示された。
論文 参考訳(メタデータ) (2024-06-01T07:46:42Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - Exploiting GPT-4 Vision for Zero-shot Point Cloud Understanding [114.4754255143887]
私たちは、ポイントクラウドでオブジェクトカテゴリを分類する課題に取り組みます。
我々はこれらの課題を克服するためにGPT-4 Vision (GPT-4V) を用いる。
ゼロショットポイントクラウド分類の新しいベンチマークを設定しました。
論文 参考訳(メタデータ) (2024-01-15T10:16:44Z) - A Survey on Super Resolution for video Enhancement Using GAN [0.0]
Generative Adversarial Networksのようなディープラーニングアルゴリズムを用いた超高解像度画像とビデオの最近の発展について紹介する。
低解像度ビデオの視覚的明快さと品質の向上を目指す進歩は、監視技術から医用画像まで、さまざまな分野で大きな可能性を秘めている。
このコレクションは、ジェネレーティブ・アドバイサル・ネットワークの広い分野に展開し、その原則、トレーニング・アプローチ、幅広い領域にわたるアプリケーションについて探求している。
論文 参考訳(メタデータ) (2023-12-27T08:41:38Z) - Clarity ChatGPT: An Interactive and Adaptive Processing System for Image
Restoration and Enhancement [97.41630939425731]
本稿では,ChatGPTの会話インテリジェンスと複数のIRE手法を組み合わせた変換システムを提案する。
ケーススタディでは、Clarity ChatGPTがIREの一般化と相互作用能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-20T11:51:13Z) - Constrained Reinforcement Learning for Short Video Recommendation [18.492477839791274]
ソーシャルメディアプラットフォーム上のショートビデオは、レコメンデーターシステムの最適化に新たな課題をもたらす。
アクター・クリティカルな枠組みに基づく2段階強化学習手法を提案する。
当社のアプローチは,ユーザエクスペリエンスを最適化するために,運用システムで完全にローンチされています。
論文 参考訳(メタデータ) (2022-05-26T09:36:20Z) - Learnable Optimal Sequential Grouping for Video Scene Detection [11.890809661723502]
最適シーケンスグループ(OSG)の能力を学習体制に拡張する。
各種構成下での深層学習ニューラルネットワークへのOSGの導入に関する包括的分析を行う。
論文 参考訳(メタデータ) (2022-05-17T11:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。