論文の概要: A Feature Analysis for Multimodal News Retrieval
- arxiv url: http://arxiv.org/abs/2007.06390v2
- Date: Thu, 1 Oct 2020 08:38:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 23:21:52.033307
- Title: A Feature Analysis for Multimodal News Retrieval
- Title(参考訳): マルチモーダルニュース検索のための特徴分析
- Authors: Golsa Tahmasebzadeh, Sherzod Hakimov, Eric M\"uller-Budack, Ralph
Ewerth
- Abstract要約: 画像とテキストの5つの特徴型について検討し,異なる組み合わせによる検索システムの性能の比較を行った。
実験結果から,視覚情報とテキスト情報の両方を考慮すると,検索精度が向上することが示された。
- 参考スコア(独自算出の注目度): 9.269820020286382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Content-based information retrieval is based on the information contained in
documents rather than using metadata such as keywords. Most information
retrieval methods are either based on text or image. In this paper, we
investigate the usefulness of multimodal features for cross-lingual news search
in various domains: politics, health, environment, sport, and finance. To this
end, we consider five feature types for image and text and compare the
performance of the retrieval system using different combinations. Experimental
results show that retrieval results can be improved when considering both
visual and textual information. In addition, it is observed that among textual
features entity overlap outperforms word embeddings, while geolocation
embeddings achieve better performance among visual features in the retrieval
task.
- Abstract(参考訳): コンテンツに基づく情報検索は、キーワードなどのメタデータを使うのではなく、ドキュメントに含まれる情報に基づいて行われる。
ほとんどの情報検索方法はテキストまたは画像に基づいている。
本稿では,政治,健康,環境,スポーツ,金融など,多言語間ニュース検索におけるマルチモーダル機能の有用性について検討する。
この目的のために,画像とテキストの5つの特徴タイプを検討し,検索システムの性能を異なる組み合わせで比較する。
実験の結果,視覚情報とテキスト情報の両方を考慮すると検索結果が向上することがわかった。
さらに,テキスト特徴量間では単語埋め込みの重なりが優れており,また位置情報埋め込みは検索作業における視覚的特徴量よりも優れていた。
関連論文リスト
- Rethinking Sparse Lexical Representations for Image Retrieval in the Age of Rising Multi-Modal Large Language Models [2.3301643766310374]
視覚的プロンプトをサポートするマルチモーダル大言語モデル(M-LLM)を利用することで,画像の特徴を抽出し,テキストデータに変換する。
従来の視覚言語モデルを用いた手法と比較して,画像検索手法の精度とリコール性能が優れていることを示す。
また,検索クエリにキーワードを反復的に組み込むことにより,検索性能が向上することを示した。
論文 参考訳(メタデータ) (2024-08-29T06:54:03Z) - Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models [17.171715290673678]
本稿では,ユーザの関連性フィードバックに基づいてクエリを精査できる対話型画像検索システムを提案する。
本システムは,視覚言語モデル(VLM)に基づく画像キャプタを組み込んで,テキストベースのクエリの質を高める。
本システムを評価するために,MSR-VTTビデオ検索データセットを画像検索タスクに適用することにより,新たなデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-04-29T14:46:35Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Efficient Image-Text Retrieval via Keyword-Guided Pre-Screening [53.1711708318581]
現在の画像テキスト検索法は、N$関連時間複雑さに悩まされている。
本稿では,画像テキスト検索のための簡易かつ効果的なキーワード誘導事前スクリーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T09:36:42Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Where Does the Performance Improvement Come From? - A Reproducibility
Concern about Image-Text Retrieval [85.03655458677295]
画像テキスト検索は、情報検索分野において、徐々に主要な研究方向になりつつある。
まず、画像テキスト検索タスクに焦点が当てられている理由と関連性について検討する。
本研究では,事前学習と非事前学習による検索モデルの再現の諸側面を解析する。
論文 参考訳(メタデータ) (2022-03-08T05:01:43Z) - Learning Semantic-Aligned Feature Representation for Text-based Person
Search [8.56017285139081]
テキストに基づく人物検索のためのセマンティック・アライン・埋め込み手法を提案する。
特徴アライメントは、意味的に整った視覚的特徴とテキスト的特徴を自動的に学習することで達成される。
CUHK-PEDESおよびFlickr30Kデータセットによる実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-12-13T14:54:38Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z) - SAC: Semantic Attention Composition for Text-Conditioned Image Retrieval [15.074592583852167]
我々は,参照画像と並行してテキストフィードバックを利用して画像を取得するテキスト条件付き画像検索の課題に焦点をあてる。
そこで我々は,これらを「見る場所」(Semantic Feature Attention) と「変化の仕方」の2つの主要なステップで解決する新しいフレームワーク SAC を提案する。
我々のアーキテクチャは、他の最先端技術で必要となる様々なモジュールを不要にすることで、テキスト認識画像機能の生成をいかに効率化するかを示す。
論文 参考訳(メタデータ) (2020-09-03T06:55:23Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。