論文の概要: MaRU: A Manga Retrieval and Understanding System Connecting Vision and
Language
- arxiv url: http://arxiv.org/abs/2311.02083v1
- Date: Sun, 22 Oct 2023 05:51:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-12 19:57:21.381873
- Title: MaRU: A Manga Retrieval and Understanding System Connecting Vision and
Language
- Title(参考訳): MaRU: 視覚と言語をつなぐマンガ検索・理解システム
- Authors: Conghao Tom Shen, Violet Yao, Yixin Liu
- Abstract要約: MaRU (Manga Retrieval and Understanding) は、マンガフレーム内の対話とシーンの効率的な検索を容易にするために、視覚と言語を接続する多段階システムである。
MaRUのアーキテクチャは、テキストとフレーム境界ボックスを識別するオブジェクト検出モデル、テキストを埋め込むテキストエンコーダ、およびテキスト情報と視覚情報を統合してシーン検索のための統合埋め込み空間にマージするビジョンエンコーダを統合する。
- 参考スコア(独自算出の注目度): 10.226184504988067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Manga, a widely celebrated Japanese comic art form, is renowned for its
diverse narratives and distinct artistic styles. However, the inherently visual
and intricate structure of Manga, which comprises images housing multiple
panels, poses significant challenges for content retrieval. To address this, we
present MaRU (Manga Retrieval and Understanding), a multi-staged system that
connects vision and language to facilitate efficient search of both dialogues
and scenes within Manga frames. The architecture of MaRU integrates an object
detection model for identifying text and frame bounding boxes, a Vision
Encoder-Decoder model for text recognition, a text encoder for embedding text,
and a vision-text encoder that merges textual and visual information into a
unified embedding space for scene retrieval. Rigorous evaluations reveal that
MaRU excels in end-to-end dialogue retrieval and exhibits promising results for
scene retrieval.
- Abstract(参考訳): 日本の漫画作品として広く知られる漫画は、多彩な物語と独自の芸術様式で有名である。
しかし、複数のパネルを収容する画像を含むマンガの視覚的かつ複雑な構造は、コンテンツ検索において重要な課題となっている。
そこで我々は,マンガフレーム内の対話と場面の効率的な検索を容易にするために,視覚と言語を接続する多段階システムであるMaRU(Manga Retrieval and Understanding)を提案する。
MaRUのアーキテクチャは、テキストとフレーム境界ボックスを識別するオブジェクト検出モデル、テキスト認識のためのビジョンエンコーダ・デコーダモデル、テキストを埋め込むテキストエンコーダ、およびテキスト情報と視覚情報を統合してシーン検索のための統合埋め込み空間にマージするビジョンテキストエンコーダを統合する。
厳密な評価により,MaRUはエンドツーエンドの対話検索に優れ,シーン検索に有望な結果を示す。
関連論文リスト
- LLaVA-Read: Enhancing Reading Ability of Multimodal Language Models [60.67899965748755]
両ビジュアルエンコーダとビジュアルテキストエンコーダを併用したマルチモーダル大規模言語モデルであるLLaVA-Readを提案する。
我々の研究は、ビジュアルテキスト理解は依然としてオープンな課題であり、将来のマルチモーダルシステムにとって効率的なビジュアルテキストエンコーダが不可欠であることを示唆している。
論文 参考訳(メタデータ) (2024-07-27T05:53:37Z) - A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing
Objects in 3D Scenes [80.20670062509723]
3Dシークエンスキャプションは、3Dシーンの詳細な説明を作成することを目的とした、視覚言語によるブリッジングタスクである。
2次元の視覚的キャプションと比較して、現実世界の表現が密接なため、大きな可能性と課題が提示される。
既存手法の人気と成功にもかかわらず、この分野の進歩を要約した総合的な調査は乏しい。
論文 参考訳(メタデータ) (2024-03-12T10:04:08Z) - The Manga Whisperer: Automatically Generating Transcriptions for Comics [55.544015596503726]
我々は,パネル,テキストボックス,文字ボックスを検出可能な統一モデル Magi を提案する。
本稿では,検出したテキストボックスを読み順にソートし,対話文を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T18:59:09Z) - Uncovering Hidden Connections: Iterative Search and Reasoning for Video-grounded Dialog [83.63849872250651]
ビデオグラウンドダイアログは、正確な応答生成のために、ダイアログ履歴とビデオコンテンツの両方を深く理解する必要がある。
本稿では,テキストエンコーダ,ビジュアルエンコーダ,ジェネレータで構成される反復探索・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-11T07:37:13Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - StacMR: Scene-Text Aware Cross-Modal Retrieval [19.54677614738065]
クロスモーダル検索モデルは、視覚シーンのより豊かな理解の恩恵を受けている。
現在のモデルは重要な側面を見下ろす:画像に現れるテキストは、検索のための重要な情報を含む可能性があります。
画像にシーン-テキストインスタンスを含むクロスモーダル検索の探索を可能にする新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-12-08T10:04:25Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z) - Unconstrained Text Detection in Manga: a New Dataset and Baseline [3.04585143845864]
本研究は,日本漫画という高度に洗練された文体で漫画ジャンルのテキストをバイナライズすることを目的としている。
ピクセルレベルでのテキストアノテーションによるマンガデータセットの欠如を克服するために、私たちは独自のものを作成します。
これらの資源を用いて、多くのメトリクスにおいて、マンガにおけるテキストバイナライゼーションの現在の手法よりも優れた、ディープ・ネットワーク・モデルの設計と評価を行った。
論文 参考訳(メタデータ) (2020-09-09T00:16:51Z) - MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding [6.4901484665257545]
本稿では,視覚的およびテキスト的データの様々なコンポーネントを,データの重要な部分に参加することによってキャプチャする,新しいマルチヘッド自己注意ネットワークを提案する。
提案手法は,MS-COCOおよびFlicker30Kデータセット上の画像テキスト検索タスクにおける最新の結果を実現する。
論文 参考訳(メタデータ) (2020-01-11T05:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。