論文の概要: DIME: An Online Tool for the Visual Comparison of Cross-Modal Retrieval
Models
- arxiv url: http://arxiv.org/abs/2010.09641v1
- Date: Mon, 19 Oct 2020 16:35:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 22:41:38.148441
- Title: DIME: An Online Tool for the Visual Comparison of Cross-Modal Retrieval
Models
- Title(参考訳): DIME: クロスモーダル検索モデルのビジュアル比較のためのオンラインツール
- Authors: Tony Zhao, Jaeyoung Choi, Gerald Friedland
- Abstract要約: クロスモーダル検索は、画像、テキスト、ビデオなどのモダリティにまたがるクエリの関連結果を取得するための正確なモデルに依存している。
DIMEは、マルチモーダルデータセット、訓練されたモデル、およびデータプリプロセッサを処理するモダリティに依存しないツールである。
- 参考スコア(独自算出の注目度): 5.725477071353354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-modal retrieval relies on accurate models to retrieve relevant results
for queries across modalities such as image, text, and video. In this paper, we
build upon previous work by tackling the difficulty of evaluating models both
quantitatively and qualitatively quickly. We present DIME (Dataset, Index,
Model, Embedding), a modality-agnostic tool that handles multimodal datasets,
trained models, and data preprocessors to support straightforward model
comparison with a web browser graphical user interface. DIME inherently
supports building modality-agnostic queryable indexes and extraction of
relevant feature embeddings, and thus effectively doubles as an efficient
cross-modal tool to explore and search through datasets.
- Abstract(参考訳): クロスモーダル検索は、画像、テキスト、ビデオなどのモダリティにまたがるクエリの関連結果を取得するための正確なモデルに依存している。
本稿では,モデル評価の難しさを量的・質的・迅速に解決し,先行研究の土台を構築する。
DIME(Dataset, Index, Model, Embedding)は、マルチモーダルデータセット、トレーニング済みモデル、およびデータプリプロセッサを扱うモダリティ非依存のツールで、Webブラウザのグラフィカルユーザインタフェースとのモデル比較を簡単にサポートする。
DIMEは本来、モダリティに依存しないクエリ可能なインデックスの構築と関連する機能埋め込みの抽出をサポートし、データセットを探索し検索するための効率的なクロスモーダルツールとして効果的に倍増する。
関連論文リスト
- Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは、フィードバック駆動の実験プラットフォームを提供し、コスト効率とデータとモデルの両方のガイド付き洗練を可能にする。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - AttributionScanner: A Visual Analytics System for Model Validation with Metadata-Free Slice Finding [29.07617945233152]
データスライス検索は、低パフォーマンスを示すデータセット内のサブグループを特定し解析することで、機械学習(ML)モデルを検証するための新興技術である。
このアプローチは、追加メタデータに対する退屈でコストのかかる要件を含む、重大な課題に直面します。
本稿では,メタデータを含まないデータスライス検索用に設計された,革新的なビジュアルアナリティクス(VA)システムであるAttributionScannerを紹介する。
本システムでは、一般的なモデル動作を含む解釈可能なデータスライスを特定し、属性モザイク設計によりこれらのパターンを可視化する。
論文 参考訳(メタデータ) (2024-01-12T09:17:32Z) - Align before Search: Aligning Ads Image to Text for Accurate Cross-Modal
Sponsored Search [27.42717207107]
クロスモーダルスポンサー検索は、消費者が検索エンジンで自然言語クエリーによって望ましい商品を探す際に、マルチモーダル広告(ads)を表示する。
画像とテキストの両方で広告特有の情報を調整できることは、正確で柔軟なスポンサー付き検索に不可欠だ。
広告画像の細粒度部分を対応するテキストに明示的にマッピングする単純なアライメントネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-28T03:43:57Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Visualising Deep Network's Time-Series Representations [93.73198973454944]
機械学習モデルの普及にもかかわらず、多くの場合、モデルの内部で起きていることに関する洞察のないブラックボックスとして運用される。
本稿では,多次元時系列データの可視化に着目し,この問題に対処する手法を提案する。
高周波在庫市場データセットの実験は、この方法が迅速かつ識別可能な可視化を提供することを示しています。
論文 参考訳(メタデータ) (2021-03-12T09:53:34Z) - Does my multimodal model learn cross-modal interactions? It's harder to
tell than you might think! [26.215781778606168]
クロスモーダルモデリングは、視覚的質問応答のようなマルチモーダルタスクにおいて不可欠である。
本稿では,与えられたタスク上でのモデル間の相互作用によって性能が向上するか否かを分離する,新たな診断ツールである経験的多モード付加関数投影(EMAP)を提案する。
7つの画像+テキスト分類タスク(それぞれに新しい最先端のベンチマークを設定した)に対して、多くの場合、モーダル間相互作用を削除することは、パフォーマンスの劣化をほとんど、あるいは全く起こさない。
論文 参考訳(メタデータ) (2020-10-13T17:45:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。