論文の概要: Survey of Visual-Semantic Embedding Methods for Zero-Shot Image
Retrieval
- arxiv url: http://arxiv.org/abs/2105.07391v1
- Date: Sun, 16 May 2021 09:43:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:47:19.490832
- Title: Survey of Visual-Semantic Embedding Methods for Zero-Shot Image
Retrieval
- Title(参考訳): ゼロショット画像検索のための視覚意味埋め込み法の検討
- Authors: Kazuya Ueki
- Abstract要約: 本稿では,文をクエリとして用いたゼロショット画像検索に着目し,この分野の技術動向調査を行う。
私たちは、画像とテキストのマッチングの初期の研究の議論から始まる技術の歴史の包括的な概要を提供します。
実験で一般的に使用されるデータセットの記述と,各手法の評価結果の比較を行った。
- 参考スコア(独自算出の注目度): 0.6091702876917279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual-semantic embedding is an interesting research topic because it is
useful for various tasks, such as visual question answering (VQA), image-text
retrieval, image captioning, and scene graph generation. In this paper, we
focus on zero-shot image retrieval using sentences as queries and present a
survey of the technological trends in this area. First, we provide a
comprehensive overview of the history of the technology, starting with a
discussion of the early studies of image-to-text matching and how the
technology has evolved over time. In addition, a description of the datasets
commonly used in experiments and a comparison of the evaluation results of each
method are presented. We also introduce the implementation available on github
for use in confirming the accuracy of experiments and for further improvement.
We hope that this survey paper will encourage researchers to further develop
their research on bridging images and languages.
- Abstract(参考訳): 視覚-意味的埋め込みは、視覚質問応答(vqa)、画像テキスト検索、画像キャプション、シーングラフ生成などの様々なタスクに有用であるため、興味深い研究テーマである。
本稿では,文をクエリとして用いたゼロショット画像検索に着目し,この分野の技術動向に関する調査を行う。
まず、画像とテキストのマッチングに関する初期の研究と、この技術が時間とともにどのように進化してきたかについての議論から、技術の歴史を包括的に概観する。
さらに,実験で一般的に使用されるデータセットの記述と,各手法の評価結果の比較を行った。
また,実験の精度確認やさらなる改善のためにgithubで利用可能な実装についても紹介する。
この調査論文が、画像や言語をブリッジする研究をさらに発展させることを期待している。
関連論文リスト
- Text-to-Image Cross-Modal Generation: A Systematic Review [0.0]
我々は「クロスモーダル・ジェネレーション」の角度からテキストから視覚データを生成する研究についてレビューする。
本稿では,テキストから画像への生成を,テキストから画像への変換,ビデオからテキストへの変換,画像編集,自己教師付き,グラフベースのアプローチの様々な特徴に分解する。
論文 参考訳(メタデータ) (2024-01-21T23:54:05Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Where Does the Performance Improvement Come From? - A Reproducibility
Concern about Image-Text Retrieval [85.03655458677295]
画像テキスト検索は、情報検索分野において、徐々に主要な研究方向になりつつある。
まず、画像テキスト検索タスクに焦点が当てられている理由と関連性について検討する。
本研究では,事前学習と非事前学習による検索モデルの再現の諸側面を解析する。
論文 参考訳(メタデータ) (2022-03-08T05:01:43Z) - Deep Learning Approaches on Image Captioning: A Review [0.5852077003870417]
画像キャプションは、静止画像の形で視覚コンテンツのための自然言語記述を生成することを目的としている。
ディープラーニングとビジョン言語による事前学習技術がこの分野に革命をもたらし、より洗練された手法と性能の向上につながった。
この分野で直面している課題は、対象の幻覚、欠落した文脈、照明条件、文脈理解、参照表現といった課題を強調することで解決する。
画像とテキストのモダリティ間の情報不一致問題への対処、データセットバイアスの軽減、字幕生成を向上するための視覚言語事前学習手法の導入、精度向上のための評価ツールの開発など、この分野における研究の今後の方向性について検討する。
論文 参考訳(メタデータ) (2022-01-31T00:39:37Z) - Deep Image Deblurring: A Survey [165.32391279761006]
低レベルのコンピュータビジョンにおいて、デブロアリングは古典的な問題であり、ぼやけた入力画像からシャープなイメージを復元することを目的としている。
近年のディープラーニングの進歩は、この問題の解決に大きな進歩をもたらした。
論文 参考訳(メタデータ) (2022-01-26T01:31:30Z) - A Thorough Review on Recent Deep Learning Methodologies for Image
Captioning [0.0]
画像キャプションの分野における最新の研究や発見に追随することはますます困難になっている。
本論文は,画像キャプション生成分野における最新のコントリビューションに追随する研究者のロードマップとして機能する。
論文 参考訳(メタデータ) (2021-07-28T00:54:59Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z) - Telling the What while Pointing the Where: Fine-grained Mouse Trace and
Language Supervision for Improved Image Retrieval [60.24860627782486]
きめ細かい画像検索は、しばしば、探しているコンテンツがどこにあるかを表現する能力を必要とする。
本稿では,ユーザが音声自然言語(“What”)とマウスが空のキャンバス(“where”)にトレースした画像を同時に記述する画像検索装置について述べる。
我々のモデルは、この空間的ガイダンスを考慮に入れ、テキストのみの等価システムと比較して、より正確な検索結果を提供する。
論文 参考訳(メタデータ) (2021-02-09T17:54:34Z) - A Decade Survey of Content Based Image Retrieval using Deep Learning [13.778851745408133]
本稿では,コンテンツベース画像検索における過去10年間のディープラーニングベース開発に関する包括的調査について述べる。
クエリ画像の代表的な特徴とデータセット画像との類似性は、検索のために画像のランク付けに使用される。
ディープラーニングは、手作業で設計した機能工学の、10年前から支配的な代替手段として現れてきた。
論文 参考訳(メタデータ) (2020-11-23T02:12:30Z) - Using Text to Teach Image Retrieval [47.72498265721957]
ニューラルネットワークを用いて学習した画像の特徴空間をグラフとして表現するために,画像多様体の概念に基づいて構築する。
我々は、幾何学的に整列したテキストで多様体のサンプルを増補し、大量の文を使って画像について教える。
実験結果から, 結合埋め込み多様体は頑健な表現であり, 画像検索を行うためのより良い基礎となることが示唆された。
論文 参考訳(メタデータ) (2020-11-19T16:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。