Fugu-MT 論文翻訳(概要): Instruction-Guided Editing Controls for Images and Multimedia: A Survey in LLM era

論文の概要: Instruction-Guided Editing Controls for Images and Multimedia: A Survey in LLM era

arxiv url: http://arxiv.org/abs/2411.09955v1
Date: Fri, 15 Nov 2024 05:18:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:47.941022
Title: Instruction-Guided Editing Controls for Images and Multimedia: A Survey in LLM era
Title（参考訳）: 画像とマルチメディアのための指導指導型編集制御:LLM時代の調査
Authors: Thanh Tam Nguyen, Zhao Ren, Trinh Pham, Phi Le Nguyen, Hongzhi Yin, Quoc Viet Hung Nguyen,
Abstract要約: 命令ベースの編集の最近の進歩は、ユーザ意図と複雑な編集操作の間の橋渡しとして自然言語を用いて、視覚コンテンツとの直感的な対話を可能にしている。我々は,エンターテイメントから教育に至るまで,様々な産業において強力なビジュアル編集を民主化することを目指している。
参考スコア（独自算出の注目度）: 49.194967221982886
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The rapid advancement of large language models (LLMs) and multimodal learning has transformed digital content creation and manipulation. Traditional visual editing tools require significant expertise, limiting accessibility. Recent strides in instruction-based editing have enabled intuitive interaction with visual content, using natural language as a bridge between user intent and complex editing operations. This survey provides an overview of these techniques, focusing on how LLMs and multimodal models empower users to achieve precise visual modifications without deep technical knowledge. By synthesizing over 100 publications, we explore methods from generative adversarial networks to diffusion models, examining multimodal integration for fine-grained content control. We discuss practical applications across domains such as fashion, 3D scene manipulation, and video synthesis, highlighting increased accessibility and alignment with human intuition. Our survey compares existing literature, emphasizing LLM-empowered editing, and identifies key challenges to stimulate further research. We aim to democratize powerful visual editing across various industries, from entertainment to education. Interested readers are encouraged to access our repository at https://github.com/tamlhp/awesome-instruction-editing.
Abstract（参考訳）: 大規模言語モデル(LLM)とマルチモーダル学習の急速な進歩により、デジタルコンテンツの作成と操作が変化した。従来のビジュアル編集ツールは、アクセシビリティを制限する重要な専門知識を必要とする。命令ベースの編集の最近の進歩は、ユーザ意図と複雑な編集操作の間の橋渡しとして自然言語を用いて、視覚コンテンツとの直感的な対話を可能にしている。この調査は,LLMとマルチモーダルモデルがユーザに対して,深い技術知識を必要とせず,正確な視覚的修正を実現する上でどのように役立つかに注目し,これらの技術の概要を提供する。 100以上の出版物を合成することにより、生成逆数ネットワークから拡散モデルへの手法を探求し、細粒度コンテンツ制御のためのマルチモーダル統合について検討する。本稿では,ファッションや3Dシーン操作,ビデオ合成といった領域における実践的応用について論じ,アクセシビリティの向上と人間の直感との整合性を強調した。本調査は,既存の文献と比較し,LLMを活用した編集を強調し,さらなる研究を促進する上で重要な課題を明らかにする。我々は,エンターテイメントから教育に至るまで,様々な産業において強力なビジュアル編集を民主化することを目指している。興味のある読者は、https://github.com/tamlhp/awesome-instruction-editing.comで私たちのリポジトリにアクセスすることを推奨されている。

関連論文リスト

Omni-Video: Democratizing Unified Video Understanding and Generation [13.616454543808798]
本報告では,映像理解,生成,および命令ベースの編集のための効率的かつ効果的な統合フレームワークであるOmni-Videoについて述べる。我々の重要な洞察は、拡散デコーダの入力として使用される連続的な視覚的手がかりを生成するために、既存のマルチモーダル大言語モデル(MLLM)を教えることである。統合ビデオモデリングシステムの可能性を完全に解き明かすため,いくつかの技術的改善を取り入れた。
論文参考訳（メタデータ） (2025-07-08T16:02:16Z)
MIND-Edit: MLLM Insight-Driven Editing via Language-Vision Projection [13.467269066605452]
MLLMと事前学習拡散モデルを組み合わせたエンドツーエンド画像編集フレームワークであるMIND-Editを提案する。 MIND-Editは,(1)MLLMからの意味的推論に基づく曖昧なユーザ指示を明確化するテキスト命令最適化戦略,(2)MLLMの本質的な視覚的理解能力を明示的に活用して編集意図を推測するMLLM洞察駆動型編集戦略,の2つの補完戦略を導入している。大規模な実験により、MIND-Editは、特に複雑で困難なシナリオにおいて、定量的メトリクスと視覚的品質の両方において、最先端の画像編集方法より優れていることが示された。
論文参考訳（メタデータ） (2025-05-25T13:54:31Z)
UniEdit: A Unified Knowledge Editing Benchmark for Large Language Models [16.546605509744015]
オープンドメイン知識に基づく大規模言語モデル(LLM)編集のための統一ベンチマークであるUniEditを紹介する。まず,5つのカテゴリにまたがる25の共通領域からエンティティを選択することで,サンプルを編集する。編集における一般性や局所性の問題に対処するため,我々はNorborhood Multi-hop Chain Smpling (NMCS)アルゴリズムを設計する。
論文参考訳（メタデータ） (2025-05-18T10:19:01Z)
Exploring Multimodal Prompt for Visualization Authoring with Large Language Models [12.43647167483504]
可視化オーサリングの文脈において,大言語モデル(LLM)が不明瞭あるいは不完全なテキストプロンプトをどのように解釈するかを検討する。テキストプロンプトに補完的な入力モダリティとして視覚的プロンプトを導入し,ユーザの意図を明らかにする。テキストやスケッチ,直接操作など,マルチモーダルなプロンプトを使って視覚化を簡単に作成できるVisPilotを設計する。
論文参考訳（メタデータ） (2025-04-18T14:00:55Z)
Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models [22.26930296101678]
既存の知識編集は、主にテキスト指向で粗いシナリオに焦点を当てている。本稿では,複数の対話型エンティティを持つ画像の正確な編集をターゲットとした,視覚指向できめ細かなマルチモーダル知識編集タスクを提案する。
論文参考訳（メタデータ） (2024-11-19T14:49:36Z)
Visual Prompting in Multimodal Large Language Models: A Survey [95.75225825537528]
MLLM(Multimodal large language model)は、視覚機能を備えた事前訓練された多言語モデル(LLM)である。ビジュアルプロンプトはよりきめ細かな自由形式のビジュアルインストラクションのために現れた。本稿では,視覚的プロンプト,即時生成,構成的推論,即時学習に焦点をあてる。
論文参考訳（メタデータ） (2024-09-05T08:47:34Z)
LLaVA-Read: Enhancing Reading Ability of Multimodal Language Models [60.67899965748755]
両ビジュアルエンコーダとビジュアルテキストエンコーダを併用したマルチモーダル大規模言語モデルであるLLaVA-Readを提案する。我々の研究は、ビジュアルテキスト理解は依然としてオープンな課題であり、将来のマルチモーダルシステムにとって効率的なビジュアルテキストエンコーダが不可欠であることを示唆している。
論文参考訳（メタデータ） (2024-07-27T05:53:37Z)
LAVE: LLM-Powered Agent Assistance and Language Augmentation for Video Editing [23.010237004536485]
大きな言語モデル(LLM)は、初心者の障壁を減らすためにビデオ編集ワークフローに統合することができる。 LAVEはLLMを利用したエージェントアシストと言語拡張編集機能を提供する新しいシステムである。初学者から熟練編集者まで8名の被験者を対象に,LAVEの有効性を実証した。
論文参考訳（メタデータ） (2024-02-15T19:53:11Z)
VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。 InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文参考訳（メタデータ） (2023-10-16T17:05:56Z)
Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文参考訳（メタデータ） (2023-05-15T17:59:03Z)
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文参考訳（メタデータ） (2023-04-27T13:27:01Z)
MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文参考訳（メタデータ） (2023-03-29T16:42:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。