論文の概要: TalkFashion: Intelligent Virtual Try-On Assistant Based on Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2507.05790v1
- Date: Tue, 08 Jul 2025 08:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.75439
- Title: TalkFashion: Intelligent Virtual Try-On Assistant Based on Multimodal Large Language Model
- Title(参考訳): TalkFashion:マルチモーダル大言語モデルに基づくインテリジェント仮想試用アシスタント
- Authors: Yujie Hu, Xuanyu Zhang, Weiqi Li, Jian Zhang,
- Abstract要約: 本稿では,テキスト命令のみによる多機能仮想試行を実現する方法について述べる。
本研究では,大規模言語モデルの強力な理解能力を活用するインテリジェントな試行アシスタントであるTalkFashionを提案する。
マルチモーダルモデルの助けを借りて、完全に自動化されたローカル編集を実現し、編集作業の柔軟性を向上させる。
- 参考スコア(独自算出の注目度): 19.347698118395673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Virtual try-on has made significant progress in recent years. This paper addresses how to achieve multifunctional virtual try-on guided solely by text instructions, including full outfit change and local editing. Previous methods primarily relied on end-to-end networks to perform single try-on tasks, lacking versatility and flexibility. We propose TalkFashion, an intelligent try-on assistant that leverages the powerful comprehension capabilities of large language models to analyze user instructions and determine which task to execute, thereby activating different processing pipelines accordingly. Additionally, we introduce an instruction-based local repainting model that eliminates the need for users to manually provide masks. With the help of multi-modal models, this approach achieves fully automated local editings, enhancing the flexibility of editing tasks. The experimental results demonstrate better semantic consistency and visual quality compared to the current methods.
- Abstract(参考訳): バーチャルトライオンは近年大きな進歩を遂げている。
本論文は,テキスト命令のみによる多機能仮想試行を実現する方法について論じる。
従来の手法は主にエンドツーエンドのネットワークに頼ってシングルトライオンのタスクを実行し、汎用性と柔軟性に欠けていた。
本研究では,大規模言語モデルの強力な理解機能を活用してユーザ命令を分析し,実行すべきタスクを判断し,それに応じて異なる処理パイプラインを活性化する,インテリジェントな試行機能であるTalkFashionを提案する。
さらに,手動でマスクを提供する必要がなくなる命令ベースの局所再塗装モデルを導入する。
マルチモーダルモデルの助けを借りて、完全に自動化されたローカル編集を実現し、編集作業の柔軟性を向上させる。
実験の結果,現在の手法と比較して意味的一貫性と視覚的品質が向上した。
関連論文リスト
- Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
マルチモーダル大言語モデル(MLLM)は、視覚のきめ細やかな理解に苦しむ。
近年の研究では、ツールの使用や視覚的なタスクを自動回帰フレームワークに統一する手法が開発されており、多くの場合、全体的なマルチモーダルパフォーマンスを犠牲にしている。
本稿では,典型的な視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法であるタスク選好最適化(TPO)を提案する。
論文 参考訳(メタデータ) (2024-12-26T18:56:05Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - Helping Language Models Learn More: Multi-dimensional Task Prompt for
Few-shot Tuning [36.14688633670085]
本稿では,タスク関連オブジェクト,要約,タスク記述情報に基づく多次元タスクプロンプト学習手法MTPromptを提案する。
提案するMTPromptは,適切なプロンプトを自動構築し,検索することで,いくつかのサンプル設定と5つの異なるデータセットに対して最適な結果が得られる。
論文 参考訳(メタデータ) (2023-12-13T10:00:44Z) - Intelligent Virtual Assistants with LLM-based Process Automation [31.275267197246595]
本稿では,高レベルのユーザ要求に基づいて,モバイルアプリ内のマルチステップ操作を自動的に実行可能な,LLMベースの新しい仮想アシスタントを提案する。
このシステムは、指示を解析し、目標を推論し、行動を実行するエンドツーエンドのソリューションを提供することによって、アシスタントの進歩を表す。
論文 参考訳(メタデータ) (2023-12-04T07:51:58Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - Dynamic Prompting: A Unified Framework for Prompt Tuning [33.175097465669374]
本稿では、特定のタスクやインスタンスに基づいて、異なるプロンプトの要因を動的に決定する統合動的プロンプト(DP)チューニング戦略を提案する。
実験結果は、幅広いタスクにわたる動的プロンプトチューニングによって達成された顕著なパフォーマンス改善を裏付けるものである。
我々は、全データ、少数ショット、マルチタスクのシナリオの下で、我々のアプローチの普遍的な適用性を確立する。
論文 参考訳(メタデータ) (2023-03-06T06:04:46Z) - Prompt Tuning with Soft Context Sharing for Vision-Language Models [42.61889428498378]
本稿では,複数目的の複数ショットタスクにおいて,事前学習した視覚言語モデルを協調的にチューニングする新しい手法を提案する。
我々は,SoftCPTがシングルタスクのプロンプトチューニング方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-29T10:19:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。