Fugu-MT 論文翻訳(概要): A Feature Analysis for Multimodal News Retrieval

論文の概要: A Feature Analysis for Multimodal News Retrieval

arxiv url: http://arxiv.org/abs/2007.06390v2
Date: Thu, 1 Oct 2020 08:38:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-10 23:21:52.033307
Title: A Feature Analysis for Multimodal News Retrieval
Title（参考訳）: マルチモーダルニュース検索のための特徴分析
Authors: Golsa Tahmasebzadeh, Sherzod Hakimov, Eric M\"uller-Budack, Ralph Ewerth
Abstract要約: 画像とテキストの5つの特徴型について検討し,異なる組み合わせによる検索システムの性能の比較を行った。実験結果から,視覚情報とテキスト情報の両方を考慮すると,検索精度が向上することが示された。
参考スコア（独自算出の注目度）: 9.269820020286382
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Content-based information retrieval is based on the information contained in documents rather than using metadata such as keywords. Most information retrieval methods are either based on text or image. In this paper, we investigate the usefulness of multimodal features for cross-lingual news search in various domains: politics, health, environment, sport, and finance. To this end, we consider five feature types for image and text and compare the performance of the retrieval system using different combinations. Experimental results show that retrieval results can be improved when considering both visual and textual information. In addition, it is observed that among textual features entity overlap outperforms word embeddings, while geolocation embeddings achieve better performance among visual features in the retrieval task.
Abstract（参考訳）: コンテンツに基づく情報検索は、キーワードなどのメタデータを使うのではなく、ドキュメントに含まれる情報に基づいて行われる。ほとんどの情報検索方法はテキストまたは画像に基づいている。本稿では,政治,健康,環境,スポーツ,金融など,多言語間ニュース検索におけるマルチモーダル機能の有用性について検討する。この目的のために,画像とテキストの5つの特徴タイプを検討し,検索システムの性能を異なる組み合わせで比較する。実験の結果,視覚情報とテキスト情報の両方を考慮すると検索結果が向上することがわかった。さらに,テキスト特徴量間では単語埋め込みの重なりが優れており,また位置情報埋め込みは検索作業における視覚的特徴量よりも優れていた。

関連論文リスト

Leveraging Auxiliary Information in Text-to-Video Retrieval: A Review [24.764393859378544]
Text-to-Video(T2V)検索は、ユーザのテキストクエリに基づいて、ビデオギャラリーから最も関連性の高いアイテムを特定することを目的としている。従来の手法は、類似度を計算し、関連する項目を検索するために、ビデオとテキストのモダリティの整合にのみ依存していた。最近の進歩は、検索性能を向上させるために、ビデオとテキストのモダリティから抽出した補助情報を含んでいる。
論文参考訳（メタデータ） (2025-05-29T19:02:48Z)
Rethinking Sparse Lexical Representations for Image Retrieval in the Age of Rising Multi-Modal Large Language Models [2.3301643766310374]
視覚的プロンプトをサポートするマルチモーダル大言語モデル(M-LLM)を利用することで,画像の特徴を抽出し,テキストデータに変換する。従来の視覚言語モデルを用いた手法と比較して,画像検索手法の精度とリコール性能が優れていることを示す。また,検索クエリにキーワードを反復的に組み込むことにより,検索性能が向上することを示した。
論文参考訳（メタデータ） (2024-08-29T06:54:03Z)
Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models [17.171715290673678]
本稿では,ユーザの関連性フィードバックに基づいてクエリを精査できる対話型画像検索システムを提案する。本システムは,視覚言語モデル(VLM)に基づく画像キャプタを組み込んで,テキストベースのクエリの質を高める。本システムを評価するために,MSR-VTTビデオ検索データセットを画像検索タスクに適用することにより,新たなデータセットをキュレートする。
論文参考訳（メタデータ） (2024-04-29T14:46:35Z)
End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文参考訳（メタデータ） (2023-06-01T08:04:12Z)
Efficient Image-Text Retrieval via Keyword-Guided Pre-Screening [53.1711708318581]
現在の画像テキスト検索法は、N$関連時間複雑さに悩まされている。本稿では,画像テキスト検索のための簡易かつ効果的なキーワード誘導事前スクリーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-14T09:36:42Z)
Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。新たなマルチモーダル検索フレームワーク(MoRe)を提案する。 MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文参考訳（メタデータ） (2022-12-03T13:11:32Z)
TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文参考訳（メタデータ） (2022-07-14T08:52:07Z)
Where Does the Performance Improvement Come From? - A Reproducibility Concern about Image-Text Retrieval [85.03655458677295]
画像テキスト検索は、情報検索分野において、徐々に主要な研究方向になりつつある。まず、画像テキスト検索タスクに焦点が当てられている理由と関連性について検討する。本研究では,事前学習と非事前学習による検索モデルの再現の諸側面を解析する。
論文参考訳（メタデータ） (2022-03-08T05:01:43Z)
Learning Semantic-Aligned Feature Representation for Text-based Person Search [8.56017285139081]
テキストに基づく人物検索のためのセマンティック・アライン・埋め込み手法を提案する。特徴アライメントは、意味的に整った視覚的特徴とテキスト的特徴を自動的に学習することで達成される。 CUHK-PEDESおよびFlickr30Kデータセットによる実験結果から,本手法が最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2021-12-13T14:54:38Z)
Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文参考訳（メタデータ） (2020-09-21T12:31:42Z)
SAC: Semantic Attention Composition for Text-Conditioned Image Retrieval [15.074592583852167]
我々は,参照画像と並行してテキストフィードバックを利用して画像を取得するテキスト条件付き画像検索の課題に焦点をあてる。そこで我々は,これらを「見る場所」(Semantic Feature Attention) と「変化の仕方」の2つの主要なステップで解決する新しいフレームワーク SAC を提案する。我々のアーキテクチャは、他の最先端技術で必要となる様々なモジュールを不要にすることで、テキスト認識画像機能の生成をいかに効率化するかを示す。
論文参考訳（メタデータ） (2020-09-03T06:55:23Z)
Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文参考訳（メタデータ） (2020-06-21T14:10:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。