論文の概要: MLLM-Driven Semantic Identifier Generation for Generative Cross-Modal Retrieval
- arxiv url: http://arxiv.org/abs/2509.17359v1
- Date: Mon, 22 Sep 2025 05:23:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:39:02.180624
- Title: MLLM-Driven Semantic Identifier Generation for Generative Cross-Modal Retrieval
- Title(参考訳): MLLM-Driven Semantic Identifier Generation for Generative Cross-Modal Retrieval
- Authors: Tianyuan Li, Lei Wang, Ahtamjan Ahmat, Yating Yang, Bo Ma, Rui Dong, Bangju Han,
- Abstract要約: 本稿では,MLLMに画像キャプチャーペアから構造化意味識別子を生成するための語彙効率のよい識別子生成フレームワークを提案する。
これらの識別子は、オブジェクトやアクションのような概念レベルのトークンで構成され、モデルの生成空間と自然に整合している。
また、Rationale-Guided Supervision Strategyを導入し、各識別子と並行して一文説明を作成するよう促す。
- 参考スコア(独自算出の注目度): 7.524529523498721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative cross-modal retrieval, which treats retrieval as a generation task, has emerged as a promising direction with the rise of Multimodal Large Language Models (MLLMs). In this setting, the model responds to a text query by generating an identifier corresponding to the target image. However, existing methods typically rely on manually crafted string IDs, clustering-based labels, or atomic identifiers requiring vocabulary expansion, all of which face challenges in semantic alignment or scalability.To address these limitations, we propose a vocabulary-efficient identifier generation framework that prompts MLLMs to generate Structured Semantic Identifiers from image-caption pairs. These identifiers are composed of concept-level tokens such as objects and actions, naturally aligning with the model's generation space without modifying the tokenizer. Additionally, we introduce a Rationale-Guided Supervision Strategy, prompting the model to produce a one-sentence explanation alongside each identifier serves as an auxiliary supervision signal that improves semantic grounding and reduces hallucinations during training.
- Abstract(参考訳): ジェネレーティブ・クロスモーダル検索は,MLLM(Multimodal Large Language Models)の台頭とともに,将来的な方向性として現れた。
この設定では、ターゲット画像に対応する識別子を生成してテキストクエリに応答する。
しかし,既存の手法は手作業による文字列ID,クラスタリングベースのラベル,あるいは語彙拡張を必要とする原子識別子に依存しており,これらの制限に対処するために,MLLMが画像キャプチャペアから構造化セマンティック識別子を生成するように促す語彙効率の高い識別子生成フレームワークを提案する。
これらの識別子は、オブジェクトやアクションのような概念レベルのトークンで構成されており、トークン化子を変更することなく、モデルの生成空間と自然に整合している。
さらに、Rationale-Guided Supervision Strategyを導入し、各識別子と並行して一文説明を作成することによって、セマンティックグラウンドを改善する補助的な監視信号として機能し、トレーニング中の幻覚を低減する。
関連論文リスト
- SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework with MLLMs [70.79124435220695]
セマンティック強化型Cross-mOdal Retrievalフレームワーク(SemCORE)を提案する。
まず,自然言語の理解と生成に最適化された生成モデルとターゲット識別子を効果的に整合させる構造化自然言語識別器(SID)を構築した。
次に、粒度の細かいターゲット識別を可能にするジェネレーティブ・セマンティック・検証(GSV)戦略を導入する。
論文 参考訳(メタデータ) (2025-04-17T17:59:27Z) - Order-agnostic Identifier for Large Language Model-based Generative Recommendation [94.37662915542603]
アイテムは、ユーザ履歴をエンコードし、次のアイテムを生成するために、LLM(Large Language Models)の識別子に割り当てられる。
既存のアプローチでは、トークンシーケンス識別子を使用して、アイテムを個別のトークンシーケンスとして表現するか、IDまたはセマンティック埋め込みを使用して単一トークン識別子を使用する。
本稿では,セマンティック・トークンライザを利用するSETRecを提案する。
論文 参考訳(メタデータ) (2025-02-15T15:25:38Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。