Fugu-MT 論文翻訳(概要): MMIS: Multimodal Dataset for Interior Scene Visual Generation and Recognition

論文の概要: MMIS: Multimodal Dataset for Interior Scene Visual Generation and Recognition

arxiv url: http://arxiv.org/abs/2407.05980v1
Date: Mon, 8 Jul 2024 14:22:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-09 15:30:42.638743
Title: MMIS: Multimodal Dataset for Interior Scene Visual Generation and Recognition
Title（参考訳）: MMIS:屋内映像生成・認識のためのマルチモーダルデータセット
Authors: Hozaifa Kassab, Ahmed Mahmoud, Mohamed Bahaa, Ammar Mohamed, Ali Hamdi,
Abstract要約: MMISは、マルチモーダルインテリアシーンの生成と認識を促進するために設計された新しいデータセットである。提案したデータセットは、画像生成、検索、キャプション、分類などのマルチモーダル表現学習タスクの研究に寄与する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We introduce MMIS, a novel dataset designed to advance MultiModal Interior Scene generation and recognition. MMIS consists of nearly 160,000 images. Each image within the dataset is accompanied by its corresponding textual description and an audio recording of that description, providing rich and diverse sources of information for scene generation and recognition. MMIS encompasses a wide range of interior spaces, capturing various styles, layouts, and furnishings. To construct this dataset, we employed careful processes involving the collection of images, the generation of textual descriptions, and corresponding speech annotations. The presented dataset contributes to research in multi-modal representation learning tasks such as image generation, retrieval, captioning, and classification.
Abstract（参考訳）: MMISはマルチモーダルインテリアシーンの生成と認識を促進するために設計された新しいデータセットである。 MMISは16万枚近い画像で構成されている。データセット内の各画像には、対応するテキスト記述と、その記述の音声記録が付属し、シーン生成と認識のためのリッチで多様な情報ソースを提供する。 MMISは幅広い内部空間を包含し、様々なスタイル、レイアウト、家具を捉えている。このデータセットを構築するために、画像の収集、テキスト記述の生成、および対応する音声アノテーションを含む注意深いプロセスを用いた。提案したデータセットは、画像生成、検索、キャプション、分類などのマルチモーダル表現学習タスクの研究に寄与する。

関連論文リスト

MMS-VPR: Multimodal Street-Level Visual Place Recognition Dataset and Benchmark [1.858700200692012]
MMS-VPRは、歩行者のみの複雑な環境でストリートレベルの場所認識のための大規模なマルチモーダルデータセットである。データセットは78,575枚の注釈付き画像と2,512本のビデオクリップからなり、中国・成都にある70,800ドルの屋外商業地区で207箇所で撮影された。
論文参考訳（メタデータ） (2025-05-18T06:21:13Z)
Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文参考訳（メタデータ） (2025-04-07T12:01:59Z)
GRAPHGPT-O: Synergistic Multimodal Comprehension and Generation on Graphs [34.076036577516895]
テキストと画像は通常相互接続され、マルチモーダル属性グラフ(MMAG)を形成する MLLMが関係情報 (textiti.e. graph structure) と意味情報 (textiti.e. texts and image) をこのようなグラフに組み込んで、マルチモーダルな理解と生成を行う方法が検討されている。我々は,MMAGにおける全多モーダル理解と生成を支援するGraphGPT-oを提案する。
論文参考訳（メタデータ） (2025-02-17T15:35:36Z)
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity [68.15983300711355]
Fine CapTIONは、任意のマスクを参照入力として認識し、異なるレベルの合成画像キャプションのための高解像度画像を処理する新しいVLMである。本研究では,多粒領域合成画像キャプションのための新しいデータセットであるコンポジションCAPを紹介し,コンポジション属性対応地域画像キャプションの課題を紹介した。
論文参考訳（メタデータ） (2024-11-23T02:20:32Z)
MMM-RS: A Multi-modal, Multi-GSD, Multi-scene Remote Sensing Dataset and Benchmark for Text-to-Image Generation [25.252173311925027]
マルチモーダル,マルチGSD,マルチシーンリモートセンシング(MMM-RS)データセットと,多様なリモートセンシングシナリオにおけるテキスト・ツー・イメージ生成のためのベンチマークを提案する。大規模な事前学習型視覚言語モデルを用いて、テキストプロンプトを自動出力し、手作りの修正を行う。広範囲な手動スクリーニングと修正アノテーションにより、最終的に約2100万のテキストイメージペアからなるMMM-RSデータセットを得る。
論文参考訳（メタデータ） (2024-10-26T11:19:07Z)
Semantic Alignment for Multimodal Large Language Models [72.10272479476161]
多モード大言語モデル(SAM)のセマンティックアライメントについて紹介する。画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
論文参考訳（メタデータ） (2024-08-23T06:48:46Z)
TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。 39,153の画像、キャプション、102,437の質問が含まれている。本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文参考訳（メタデータ） (2024-06-10T18:52:37Z)
Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文参考訳（メタデータ） (2024-04-03T23:20:40Z)
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文参考訳（メタデータ） (2024-03-29T16:26:20Z)
A Comprehensive Analysis of Real-World Image Captioning and Scene Identification [0.0]
実世界のイメージキャプションには、多くの注意点を持つ複雑で動的な環境が含まれる。本稿では,異なる符号化機構上に構築された各種モデルの性能評価を行う。このデータセットは、より説明的なキャプションを生成するIC3アプローチを使用してキャプションされる。
論文参考訳（メタデータ） (2023-08-05T10:06:06Z)
HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文参考訳（メタデータ） (2022-12-16T05:08:52Z)
MHMS: Multimodal Hierarchical Multimedia Summarization [80.18786847090522]
視覚領域と言語領域を相互作用させることにより,マルチモーダル階層型マルチメディア要約(MHMS)フレームワークを提案する。本手法は,ビデオとテキストのセグメンテーションと要約モジュールをそれぞれ含んでいる。ドメイン間のアライメントの目的を最適な輸送距離で定式化し、代表とテキストの要約を生成する。
論文参考訳（メタデータ） (2022-04-07T21:00:40Z)
Diverse Image Captioning with Context-Object Split Latent Spaces [22.95979735707003]
本稿では,画像やテキストのコンテキスト記述における多様性をモデル化するために,コンテキストオブジェクト分割と呼ばれる潜在空間の新たな因子分解を導入する。本フレームワークは,文脈に基づく疑似監視による多種多様なキャプションを可能にするだけでなく,新たなオブジェクトを持つ画像に拡張し,トレーニングデータにペアのキャプションを含まないようにした。
論文参考訳（メタデータ） (2020-11-02T13:33:20Z)
Dense Relational Image Captioning via Multi-task Triple-Stream Networks [95.0476489266988]
視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
論文参考訳（メタデータ） (2020-10-08T09:17:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。