論文の概要: Bridging Coarse and Fine Recognition: A Hybrid Approach for Open-Ended Multi-Granularity Object Recognition in Interactive Educational Games
- arxiv url: http://arxiv.org/abs/2604.16785v1
- Date: Sat, 18 Apr 2026 02:16:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.172914
- Title: Bridging Coarse and Fine Recognition: A Hybrid Approach for Open-Ended Multi-Granularity Object Recognition in Interactive Educational Games
- Title(参考訳): ブリッジリング粗大化と微粒化:対話型ゲームにおけるオープンエンディング多粒度物体認識へのハイブリッドアプローチ
- Authors: Hanling Yi, Feng Lin, Mao Luo, Yifan Yang, Xiaotian Yu, Rong Xiao,
- Abstract要約: HyMORでは、MLLMは、オープンエンドおよび粗粒のオブジェクト認識を行い、CLIPモデルは、動物や植物のようなドメイン固有のオブジェクトのきめ細かい識別を専門としている。
このハイブリッドデザインは、複数のセマンティックな粒度の正確なオブジェクト理解を可能にし、下流のマルチモーダルコンテンツ生成とインタラクティブなゲームプレイのための堅牢な知覚基盤として機能する。
- 参考スコア(独自算出の注目度): 11.804164932866192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Multimodal Large Language Models (MLLMs) have enabled open-ended object recognition, yet they struggle with fine-grained tasks. In contrast, CLIP-style models excel at fine-grained recognition but lack broad coverage of general object categories. To bridge this gap, we propose \textbf{HyMOR}, a \textbf{Hy}brid \textbf{M}ulti-granularity open-ended \textbf{O}bject \textbf{R}ecognition framework that integrates an MLLM with a CLIP model. In HyMOR, the MLLM performs open-ended and coarse-grained object recognition, while the CLIP model specializes in fine-grained identification of domain-specific objects such as animals and plants. This hybrid design enables accurate object understanding across multiple semantic granularities, serving as a robust perceptual foundation for downstream multi-modal content generation and interactive gameplay. To support evaluation in content-rich and educational scenarios, we introduce TBO (TextBook Objects), a dataset containing 20,942 images annotated with 8,816 object categories extracted from textbooks. Extensive experiments demonstrate that HyMOR narrows the fine-grained recognition gap with CLIP to 0.2\% while improving general object recognition by 2.5\% over a baseline MLLM, measured by average Sentence-BERT (SBert) similarity. Overall, HyMOR achieves a 23.2\% improvement in average SBert across all evaluated datasets, highlighting its effectiveness in enabling accurate perception for multi-modal game content generation and interactive learning applications.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩により、オープンなオブジェクト認識が可能になったが、細粒度タスクに苦慮している。
対照的に、CLIPスタイルのモデルはきめ細かな認識では優れているが、汎用オブジェクトカテゴリの広範なカバレッジは欠如している。
このギャップを埋めるために、MLLMをCLIPモデルと統合した \textbf{Hy}brid \textbf{M}ulti-granularity Open-ended \textbf{O}bject \textbf{R}ecognition framework である \textbf{HyMOR} を提案する。
HyMORでは、MLLMは、オープンエンドおよび粗粒のオブジェクト認識を行い、CLIPモデルは、動物や植物のようなドメイン固有のオブジェクトのきめ細かい識別を専門としている。
このハイブリッドデザインは、複数のセマンティックな粒度の正確なオブジェクト理解を可能にし、下流のマルチモーダルコンテンツ生成とインタラクティブなゲームプレイのための堅牢な知覚基盤として機能する。
コンテンツ豊かで教育的なシナリオの評価を支援するために,教科書から抽出した8,816の対象カテゴリを付加した20,942の画像を含むデータセットであるTBO(TextBook Objects)を紹介した。
拡張実験により,HyMORはCLIPによる微粒化認識ギャップを0.2\%に狭めつつ,ベースラインMLLM上での一般物体認識を2.5\%改善し,SBert(Sentence-BERT)の類似度の平均値で測定した。
全体としてHyMORは、評価されたすべてのデータセットの平均SBertを23.2倍改善し、マルチモーダルゲームコンテンツ生成およびインタラクティブ学習アプリケーションに対する正確な認識を可能にする効果を強調している。
関連論文リスト
- Adaptive Global and Fine-Grained Perceptual Fusion for MLLM Embeddings Compatible with Hard Negative Amplification [49.109117617514066]
マルチモーダル埋め込みは、視覚と言語を整合させるブリッジとして機能する。
MLLM埋め込みのための適応的グローバルおよび微粒な知覚融合法を提案する。
AGFF-Embedは、総合的および微粒な理解において、最先端のパフォーマンスを包括的に達成する。
論文 参考訳(メタデータ) (2026-02-05T14:52:35Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。
我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。
これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文 参考訳(メタデータ) (2024-09-23T06:56:51Z) - Towards Optimal Aggregation of Varying Range Dependencies in Haze Removal [17.29370328189668]
既存の手法は、局所的な詳細を保存するための短距離依存関係や、グローバルなコンテキストを捉えるための長距離依存関係を専門にすることで、顕著な成功を収めている。
DehazeMaticを提案する。これは、デュアルストリーム設計により、短距離および長距離の両方の依存関係を同時に、かつ明示的にキャプチャする。
論文 参考訳(メタデータ) (2024-08-22T11:51:50Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。