論文の概要: Instruction-Guided Editing Controls for Images and Multimedia: A Survey in LLM era
- arxiv url: http://arxiv.org/abs/2411.09955v2
- Date: Thu, 21 Nov 2024 05:28:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 11:59:12.378989
- Title: Instruction-Guided Editing Controls for Images and Multimedia: A Survey in LLM era
- Title(参考訳): 画像とマルチメディアのための指導指導型編集制御:LLM時代の調査
- Authors: Thanh Tam Nguyen, Zhao Ren, Trinh Pham, Thanh Trung Huynh, Phi Le Nguyen, Hongzhi Yin, Quoc Viet Hung Nguyen,
- Abstract要約: 命令ベースの編集の最近の進歩は、ユーザ意図と複雑な編集操作の間の橋渡しとして自然言語を用いて、視覚コンテンツとの直感的な対話を可能にしている。
我々は,エンターテイメントから教育に至るまで,様々な産業において強力なビジュアル編集を民主化することを目指している。
- 参考スコア(独自算出の注目度): 50.19334853510935
- License:
- Abstract: The rapid advancement of large language models (LLMs) and multimodal learning has transformed digital content creation and manipulation. Traditional visual editing tools require significant expertise, limiting accessibility. Recent strides in instruction-based editing have enabled intuitive interaction with visual content, using natural language as a bridge between user intent and complex editing operations. This survey provides an overview of these techniques, focusing on how LLMs and multimodal models empower users to achieve precise visual modifications without deep technical knowledge. By synthesizing over 100 publications, we explore methods from generative adversarial networks to diffusion models, examining multimodal integration for fine-grained content control. We discuss practical applications across domains such as fashion, 3D scene manipulation, and video synthesis, highlighting increased accessibility and alignment with human intuition. Our survey compares existing literature, emphasizing LLM-empowered editing, and identifies key challenges to stimulate further research. We aim to democratize powerful visual editing across various industries, from entertainment to education. Interested readers are encouraged to access our repository at https://github.com/tamlhp/awesome-instruction-editing.
- Abstract(参考訳): 大規模言語モデル(LLM)とマルチモーダル学習の急速な進歩により、デジタルコンテンツの作成と操作が変化した。
従来のビジュアル編集ツールは、アクセシビリティを制限する重要な専門知識を必要とする。
命令ベースの編集の最近の進歩は、ユーザ意図と複雑な編集操作の間の橋渡しとして自然言語を用いて、視覚コンテンツとの直感的な対話を可能にしている。
この調査は,LLMとマルチモーダルモデルがユーザに対して,深い技術知識を必要とせず,正確な視覚的修正を実現する上でどのように役立つかに注目し,これらの技術の概要を提供する。
100以上の出版物を合成することにより、生成逆数ネットワークから拡散モデルへの手法を探求し、細粒度コンテンツ制御のためのマルチモーダル統合について検討する。
本稿では,ファッションや3Dシーン操作,ビデオ合成といった領域における実践的応用について論じ,アクセシビリティの向上と人間の直感との整合性を強調した。
本調査は,既存の文献と比較し,LLMを活用した編集を強調し,さらなる研究を促進する上で重要な課題を明らかにする。
我々は,エンターテイメントから教育に至るまで,様々な産業において強力なビジュアル編集を民主化することを目指している。
興味のある読者は、https://github.com/tamlhp/awesome-instruction-editing.comで私たちのリポジトリにアクセスすることを推奨されている。
関連論文リスト
- Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models [22.26930296101678]
既存の知識編集は、主にテキスト指向で粗いシナリオに焦点を当てている。
本稿では,複数の対話型エンティティを持つ画像の正確な編集をターゲットとした,視覚指向できめ細かなマルチモーダル知識編集タスクを提案する。
論文 参考訳(メタデータ) (2024-11-19T14:49:36Z) - Visual Prompting in Multimodal Large Language Models: A Survey [95.75225825537528]
MLLM(Multimodal large language model)は、視覚機能を備えた事前訓練された多言語モデル(LLM)である。
ビジュアルプロンプトはよりきめ細かな自由形式のビジュアルインストラクションのために現れた。
本稿では,視覚的プロンプト,即時生成,構成的推論,即時学習に焦点をあてる。
論文 参考訳(メタデータ) (2024-09-05T08:47:34Z) - LLaVA-Read: Enhancing Reading Ability of Multimodal Language Models [60.67899965748755]
両ビジュアルエンコーダとビジュアルテキストエンコーダを併用したマルチモーダル大規模言語モデルであるLLaVA-Readを提案する。
我々の研究は、ビジュアルテキスト理解は依然としてオープンな課題であり、将来のマルチモーダルシステムにとって効率的なビジュアルテキストエンコーダが不可欠であることを示唆している。
論文 参考訳(メタデータ) (2024-07-27T05:53:37Z) - LAVE: LLM-Powered Agent Assistance and Language Augmentation for Video
Editing [23.010237004536485]
大きな言語モデル(LLM)は、初心者の障壁を減らすためにビデオ編集ワークフローに統合することができる。
LAVEはLLMを利用したエージェントアシストと言語拡張編集機能を提供する新しいシステムである。
初学者から熟練編集者まで8名の被験者を対象に,LAVEの有効性を実証した。
論文 参考訳(メタデータ) (2024-02-15T19:53:11Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。