論文の概要: FlexMUSE: Multimodal Unification and Semantics Enhancement Framework with Flexible interaction for Creative Writing
- arxiv url: http://arxiv.org/abs/2508.16230v1
- Date: Fri, 22 Aug 2025 09:01:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.330078
- Title: FlexMUSE: Multimodal Unification and Semantics Enhancement Framework with Flexible interaction for Creative Writing
- Title(参考訳): FlexMUSE: 創造的記述のためのフレキシブルインタラクションを備えたマルチモーダル統一とセマンティックス強化フレームワーク
- Authors: Jiahao Chen, Zhiyong Ma, Wenbiao Du, Qingyuan Chuai,
- Abstract要約: マルチモーダル・クリエイティブ・ライティング(MMCW)は、イラスト入り記事を作成することを目的としている。
MMCWは完全に新しい、より抽象的な課題であり、テキストと視覚のコンテキストは互いに厳密に関連していない。
任意の視覚入力を可能にするために,T2Iモジュールを用いたFlexMUSEを提案する。
- 参考スコア(独自算出の注目度): 4.587146567965601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal creative writing (MMCW) aims to produce illustrated articles. Unlike common multi-modal generative (MMG) tasks such as storytelling or caption generation, MMCW is an entirely new and more abstract challenge where textual and visual contexts are not strictly related to each other. Existing methods for related tasks can be forcibly migrated to this track, but they require specific modality inputs or costly training, and often suffer from semantic inconsistencies between modalities. Therefore, the main challenge lies in economically performing MMCW with flexible interactive patterns, where the semantics between the modalities of the output are more aligned. In this work, we propose FlexMUSE with a T2I module to enable optional visual input. FlexMUSE promotes creativity and emphasizes the unification between modalities by proposing the modality semantic alignment gating (msaGate) to restrict the textual input. Besides, an attention-based cross-modality fusion is proposed to augment the input features for semantic enhancement. The modality semantic creative direct preference optimization (mscDPO) within FlexMUSE is designed by extending the rejected samples to facilitate the writing creativity. Moreover, to advance the MMCW, we expose a dataset called ArtMUSE which contains with around 3k calibrated text-image pairs. FlexMUSE achieves promising results, demonstrating its consistency, creativity and coherence.
- Abstract(参考訳): マルチモーダル・クリエイティブ・ライティング(MMCW)は、イラスト入り記事を作成することを目的としている。
ストーリーテリングやキャプション生成のような一般的なマルチモーダル生成(MMG)タスクとは異なり、MCCWは完全に新しく抽象的な課題であり、テキストと視覚的コンテキストは厳密には関係しない。
既存のタスクの方法は強制的にこのトラックに移行することができるが、それらは特定のモダリティ入力やコストのかかる訓練を必要とし、しばしばモダリティ間の意味的不整合に悩まされる。
したがって、主な課題は、出力のモダリティ間のセマンティクスがより整合している柔軟な対話パターンでMCCWを経済的に実行することである。
本稿では,任意の視覚入力を可能にするために,T2Iモジュールを用いたFlexMUSEを提案する。
FlexMUSEは創造性を促進し、モダリティ間の統一を強調し、テキスト入力を制限するためにモダリティセマンティックアライメントゲーティング(msaGate)を提案している。
さらに, セマンティックエンハンスメントのための入力機能を強化するために, 注意に基づく相互モーダリティ融合を提案する。
FlexMUSE内のモダリティ・セマンティック・クリエイティブ・ダイレクト・プライオリティ・最適化(mscDPO)は、記述のクリエイティビティを促進するために、削除されたサンプルを拡張して設計されている。
さらに、MCCWを前進させるために、約3kの校正されたテキストイメージペアを含むArtMUSEと呼ばれるデータセットを公開する。
FlexMUSEは、一貫性、創造性、一貫性を示し、有望な結果を達成する。
関連論文リスト
- Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition [51.68340973140949]
GMNER(Multimodal Named Entity Recognition)は、テキストベースのエンティティを抽出し、セマンティックカテゴリを割り当て、それらを対応する視覚領域に接地することを目的としている。
MLLMは、視覚バイアスやテキストバイアスを含む$textbfmodality bias$を示す。
本稿では,モダリティを考慮した一貫性推論(bfMCR$)を提案する。
論文 参考訳(メタデータ) (2026-02-04T12:12:49Z) - FlexAC: Towards Flexible Control of Associative Reasoning in Multimodal Large Language Models [80.6268239673988]
マルチモーダルな大規模言語モデル(MLLM)は、忠実さと創造性の間に固有のトレードオフに直面します。
既存の方法には、この推論強度を調節する柔軟性がない。
本稿では,連想推論を柔軟に制御する機構を備えたMLLMを提案する。
論文 参考訳(メタデータ) (2025-10-13T09:22:12Z) - IUT-Plug: A Plug-in tool for Interleaved Image-Text Generation [23.61167100602915]
IUT-Plugはイメージ理解ツリー(IUT)に基盤を置くモジュールである
動的IUT-Plug抽出モジュールは、視覚シーンを階層的なシンボル構造に解析する。
協調した物語フローと画像合成機構は、相互整合性を保証する。
論文 参考訳(メタデータ) (2025-10-13T03:19:45Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - Multimodal Chain of Continuous Thought for Latent-Space Reasoning in Vision-Language Models [0.0]
本稿では,連続思考のマルチモーダル連鎖(MCOUT)を提案する。
MCOUTはマルチモーダル推論を継続的に改善し,高いベースラインに対して最大8.23%の精度向上が得られることを示す。
以上の結果から,言語関連CoTを超えてLMMを推し進めるための有望な方向として,潜時的連続推論が注目されている。
論文 参考訳(メタデータ) (2025-08-18T02:50:20Z) - Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model [43.533849239738394]
Stream-Omniは、効率的なモダリティアライメントを備えた大きな言語ビジョン音声モデルである。
様々なモダリティの組み合わせの下での相互作用を同時にサポートすることができる。
視覚的理解、音声対話、および視覚的な音声対話タスクにおいて、高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-16T16:06:45Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities [8.517830626176641]
Any2Segは、任意の視覚的条件におけるモダリティの組み合わせから堅牢なセグメンテーションを実現する新しいフレームワークである。
4つのモダリティを持つ2つのベンチマークの実験は、Any2Segがマルチモーダル設定の下で最先端を達成することを示した。
論文 参考訳(メタデータ) (2024-07-16T03:34:38Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。