論文の概要: LAVE: LLM-Powered Agent Assistance and Language Augmentation for Video
Editing
- arxiv url: http://arxiv.org/abs/2402.10294v1
- Date: Thu, 15 Feb 2024 19:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 18:17:30.148491
- Title: LAVE: LLM-Powered Agent Assistance and Language Augmentation for Video
Editing
- Title(参考訳): LAVE:ビデオ編集のためのLLMエージェントアシストと言語拡張
- Authors: Bryan Wang, Yuliang Li, Zhaoyang Lv, Haijun Xia, Yan Xu, Raj Sodhi
- Abstract要約: 大きな言語モデル(LLM)は、初心者の障壁を減らすためにビデオ編集ワークフローに統合することができる。
LAVEはLLMを利用したエージェントアシストと言語拡張編集機能を提供する新しいシステムである。
初学者から熟練編集者まで8名の被験者を対象に,LAVEの有効性を実証した。
- 参考スコア(独自算出の注目度): 23.010237004536485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video creation has become increasingly popular, yet the expertise and effort
required for editing often pose barriers to beginners. In this paper, we
explore the integration of large language models (LLMs) into the video editing
workflow to reduce these barriers. Our design vision is embodied in LAVE, a
novel system that provides LLM-powered agent assistance and language-augmented
editing features. LAVE automatically generates language descriptions for the
user's footage, serving as the foundation for enabling the LLM to process
videos and assist in editing tasks. When the user provides editing objectives,
the agent plans and executes relevant actions to fulfill them. Moreover, LAVE
allows users to edit videos through either the agent or direct UI manipulation,
providing flexibility and enabling manual refinement of agent actions. Our user
study, which included eight participants ranging from novices to proficient
editors, demonstrated LAVE's effectiveness. The results also shed light on user
perceptions of the proposed LLM-assisted editing paradigm and its impact on
users' creativity and sense of co-creation. Based on these findings, we propose
design implications to inform the future development of agent-assisted content
editing.
- Abstract(参考訳): ビデオ作成はますます普及しているが、編集に必要な専門知識と努力は初心者にとって障壁となることが多い。
本稿では,ビデオ編集ワークフローへの大型言語モデル(LLM)の統合について検討し,これらの障壁を軽減する。
我々のデザインビジョンは、LLMを利用したエージェントアシストと言語拡張編集機能を提供するLAVEに具体化されている。
LAVEはユーザーの映像の言語記述を自動的に生成し、LLMが動画の処理やタスクの編集を支援するための基盤となる。
ユーザが編集対象を提供すると、エージェントはそれらを満たすための関連するアクションを計画し実行します。
さらに、LAVEでは、エージェントまたは直接UI操作を通じてビデオを編集することができ、柔軟性を提供し、エージェントアクションの手作業による改善を可能にする。
初学者から熟練編集者まで8名の被験者を対象に,LAVEの有効性を実証した。
また,提案したLCM支援編集パラダイムのユーザ認識や,ユーザの創造性や共同創造感への影響も明らかにした。
これらの知見に基づいて,エージェント支援コンテンツ編集の今後の発展を示唆する設計上の意義を提案する。
関連論文リスト
- Lifelong Knowledge Editing for Vision Language Models with Low-Rank Mixture-of-Experts [17.376346967267327]
我々は、生涯LLM編集とビジョンLLM編集のギャップを埋めるために、LIfelong Vision言語modEl EditのLiveEditを提案する。
ビジュアルセマンティック知識を活用するためにハードフィルタリング機構を開発し、入力クエリの視覚的に無関係な専門家を排除した。
視覚的に関係のある専門家を統合するために,テキストの意味的関連性に基づくソフトルーティング機構を導入し,マルチエキスパート融合を実現する。
論文 参考訳(メタデータ) (2024-11-23T03:19:40Z) - Instruction-Guided Editing Controls for Images and Multimedia: A Survey in LLM era [50.19334853510935]
命令ベースの編集の最近の進歩は、ユーザ意図と複雑な編集操作の間の橋渡しとして自然言語を用いて、視覚コンテンツとの直感的な対話を可能にしている。
我々は,エンターテイメントから教育に至るまで,様々な産業において強力なビジュアル編集を民主化することを目指している。
論文 参考訳(メタデータ) (2024-11-15T05:18:15Z) - A Reinforcement Learning-Based Automatic Video Editing Method Using Pre-trained Vision-Language Model [10.736207095604414]
まず、シーン固有の特徴を抽出する以前の作品とは異なり、事前学習された視覚言語モデル(VLM)を活用する。
また,RLをベースとした編集フレームワークを提案し,編集問題を定式化し,仮想エディタを訓練し,より優れた編集判断を行う。
論文 参考訳(メタデータ) (2024-11-07T18:20:28Z) - Empowering Visual Creativity: A Vision-Language Assistant to Image Editing Recommendations [109.65267337037842]
IER(Image Editing Recommendation)の課題を紹介する。
IERは、入力画像から多様なクリエイティブな編集命令を自動生成し、ユーザの未指定の編集目的を表すシンプルなプロンプトを作成することを目的としている。
本稿では,Creative-Vision Language Assistant(Creativity-VLA)を紹介する。
論文 参考訳(メタデータ) (2024-05-31T18:22:29Z) - ExpressEdit: Video Editing with Natural Language and Sketching [28.814923641627825]
マルチモダリティ$-$natural Language (NL) とスケッチは、人間が表現に使用する自然なモダリティであり、ビデオエディタをサポートするために$-$canを使用することができる。
我々は,NLテキストによる動画編集と映像フレームのスケッチを可能にするExpressEditを提案する。
論文 参考訳(メタデータ) (2024-03-26T13:34:21Z) - VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。
ビデオタスクの文脈でLLMの実用性を拡張するための新しいアプローチである。
我々は,その文脈学習能力を利用して,映像理解のための実行可能な視覚プログラムを生成する。
論文 参考訳(メタデータ) (2024-03-21T18:00:00Z) - Knowledge Graph Enhanced Large Language Model Editing [37.6721061644483]
大規模言語モデル(LLM)は、自然言語処理(NLP)タスクの進行において重要な要素である。
既存の編集方法は、編集に関連する知識の変化を追跡し、組み込むのに苦労する。
知識グラフを利用した新しいモデル編集手法を提案し,LLM編集の強化,すなわちGLAMEを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:52:26Z) - On the Robustness of Editing Large Language Models [57.477943944826904]
大型言語モデル(LLM)はコミュニケーションAIの構築において重要な役割を担っているが、効率的な更新の課題に直面している。
この研究は、編集方法の長所と短所を理解し、コミュニケーション型AIの実践的応用を促進することを目的としている。
論文 参考訳(メタデータ) (2024-02-08T17:06:45Z) - Beyond the Chat: Executable and Verifiable Text-Editing with LLMs [87.84199761550634]
近年,Large Language Models (LLMs) を利用した会話インタフェースが,文書編集時にフィードバックを得る手段として人気になっている。
InkSyncは、編集中のドキュメント内で直接実行可能な編集を推奨する編集インターフェースである。
論文 参考訳(メタデータ) (2023-09-27T00:56:17Z) - Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。
より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。
ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文 参考訳(メタデータ) (2023-04-17T09:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。