論文の概要: CMAG: Concept-Scaffolded Retrieval for Marketplace Avatar Generation
- arxiv url: http://arxiv.org/abs/2605.18680v1
- Date: Mon, 18 May 2026 17:21:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:50.193946
- Title: CMAG: Concept-Scaffolded Retrieval for Marketplace Avatar Generation
- Title(参考訳): CMAG: マーケットプレースアバター生成のためのコンセプトスキャフォールド検索
- Authors: Rajeev Goel, Jason Ding, Phani Harish Wajjala, Pavan Turaga, Tejaswi Gowda, Krishna C. Garikipati,
- Abstract要約: メタバースプラットフォームは、アバターを個別に分類された3D資産から組み立てるクリエーター主導の市場に依存している。
マーケットプレース生成のための概念スキャフォールド検索および検証済み合成フレームワークである textbfCMAG を提案する。
- 参考スコア(独自算出の注目度): 0.5131152350448099
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Metaverse platforms rely on creator-driven marketplaces where avatars are assembled from discrete, taxonomy-labeled 3D assets (e.g., tops, bottoms, shoes, accessories) under strict category and topology constraints. While users increasingly expect free-form text control, text-only retrieval is brittle: natural language is ambiguous with respect to platform taxonomies, metadata is often noisy or informal, and independently retrieved components can be stylistically inconsistent or geometrically incompatible. We propose \textbf{CMAG}, a concept-scaffolded retrieval and verified composition framework for marketplace avatar generation. Given a prompt, CMAG first synthesizes an intermediate 3D concept scaffold that disambiguates intent beyond text by providing global spatial and stylistic context. In parallel, a view-aware part discovery module extracts localized visual evidence via prompt decomposition and text-grounded segmentation. A prompt-conditioned taxonomy router enforces category coverage and resolves semantic-to-taxonomic mismatch, after which a hybrid category-wise retriever combines part-based fusion with a concept-residual fallback using feature suppression. Finally, an agentic vision--language model filters and re-ranks candidates across categories and drives an iterative verification loop to assemble prompt-faithful, topologically consistent avatars from catalog assets. We evaluate CMAG on diverse compositional prompts and demonstrate improved retrieval robustness and compositional correctness compared to strong baselines, highlighting the importance of 3D concept scaffolding under prompt ambiguity.
- Abstract(参考訳): メタバースプラットフォームは、厳格なカテゴリーとトポロジー制約の下で、アバターを個別に分類された3Dアセット(トップ、ボトム、靴、アクセサリーなど)から組み立てるクリエーター主導のマーケットプレイスに依存している。
自然言語はプラットフォーム分類に関して曖昧であるが、メタデータはしばしばノイズや非公式であり、独立して取得されたコンポーネントはスタイリスティックに一貫性がなく、幾何学的に互換性がない。
マーケットプレースアバター生成のための概念スキャフォールド検索と検証された合成フレームワークである \textbf{CMAG} を提案する。
プロンプトが与えられたとき、CMAGはまず、グローバルな空間的・スタイリスティックなコンテキストを提供することで、テキストを超えて意図を曖昧にする中間的な3D概念の足場を合成する。
並行して、ビュー認識部分発見モジュールは、即時分解とテキスト接地セグメンテーションを介して、局所的な視覚的証拠を抽出する。
素早い条件付き分類ルータは、カテゴリカバレッジを強制し、セマンティック・ツー・タコノミクスのミスマッチを解決する。
最後に,エージェント型視覚言語モデルを用いてカテゴリ毎に候補をフィルタリングし,反復的検証ループを駆動し,カタログ資産から即時かつ位相的に整合したアバターを組み立てる。
CMAGを多種多様な構成的プロンプトで評価し, 強靭なベースラインと比較して, 検索の堅牢性や構成的正しさが向上し, 即時あいまいさ下での3次元概念的足場の重要性を強調した。
関連論文リスト
- Disentangled Concept Representation for Text-to-image Person Re-identification [4.581495198705364]
TIReIDは、視覚的外観とテキスト表現の間にかなりのモダリティのギャップがあるため、難しい。
本稿では,階層的かつ不整合なクロスモーダルアライメントを実現する新しいフレームワークであるDiCoを提案する。
我々のフレームワークは最先端の手法と競合する性能を実現している。
論文 参考訳(メタデータ) (2026-01-15T04:08:53Z) - SaFiRe: Saccade-Fixation Reiteration with Mamba for Referring Image Segmentation [58.80001825332851]
Referring Image (RIS) は、自然言語で表現された画像に対象のオブジェクトを分割することを目的としている。
最近の手法は主に「赤い車」や「左少女」のような単純な表現に焦点を当てている
論文 参考訳(メタデータ) (2025-10-11T10:50:58Z) - MetaFind: Scene-Aware 3D Asset Retrieval for Coherent Metaverse Scene Generation [16.539993197236125]
シーン対応の3モーダル合成検索フレームワークであるMetaFindを提案する。
大規模リポジトリから3Dアセットを取得することで,メタバースのシーン生成を向上させるように設計されている。
論文 参考訳(メタデータ) (2025-10-05T06:37:26Z) - Composed Object Retrieval: Object-level Retrieval via Composed Expressions [71.47650333199628]
Composed Object Retrieval (COR)は、画像レベルの検索を超えてオブジェクトレベルの精度を達成するための新しいタスクである。
COR127KはCORの最初の大規模ベンチマークであり、408カテゴリの様々な意味変換を持つ127,166個の検索三重項を含む。
また、参照領域エンコーディング、適応型視覚・テキストインタラクション、および領域レベルのコントラスト学習を統合した統合エンドツーエンドモデルであるCOREを提案する。
論文 参考訳(メタデータ) (2025-08-06T13:11:40Z) - ObjectGS: Object-aware Scene Reconstruction and Scene Understanding via Gaussian Splatting [54.92763171355442]
ObjectGSは3Dシーンをセマンティックな理解と統合するオブジェクト認識フレームワークである。
我々はObjectGSがオープンボキャブラリやパン光学のセグメンテーションタスクにおいて最先端の手法より優れていることを示す実験を通して示す。
論文 参考訳(メタデータ) (2025-07-21T10:06:23Z) - What You Perceive Is What You Conceive: A Cognition-Inspired Framework for Open Vocabulary Image Segmentation [65.80512502962071]
オープン語彙のイメージセグメンテーションは、推論時に動的に調整可能で事前定義された新しいカテゴリを認識するという課題に取り組む。
既存のパラダイムは通常、クラスに依存しない領域のセグメンテーションを実行し、続いてカテゴリマッチングを行い、領域のセグメンテーションとターゲット概念の整合性が劣る。
人間の視覚認識過程をエミュレートするオープン語彙画像セグメント化のための新しい認知刺激フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T06:33:48Z) - Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations [67.92679668612858]
我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
論文 参考訳(メタデータ) (2023-06-03T11:50:44Z) - SrTR: Self-reasoning Transformer with Visual-linguistic Knowledge for
Scene Graph Generation [12.977857322594206]
一段階のシーングラフ生成では、スパース提案セットといくつかのクエリを使ってエンティティペア間の効果的な関係を推測する。
モデルにフレキシブルな自己推論機能を加えるために,視覚言語知識を用いた自己推論変換器(SrTR)を提案する。
大規模な事前学習型画像テキスト基礎モデルに触発され、視覚言語学的な事前知識が導入された。
論文 参考訳(メタデータ) (2022-12-19T09:47:27Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - MOC-GAN: Mixing Objects and Captions to Generate Realistic Images [21.240099965546637]
より合理的な設定を導入し、オブジェクトやキャプションからリアルなイメージを生成します。
この設定では、オブジェクトはターゲットイメージにおける重要な役割を明示的に定義し、キャプションは、そのリッチな属性とコネクションを暗黙的に記述する。
2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
論文 参考訳(メタデータ) (2021-06-06T14:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。