論文の概要: Multimodal Information Retrieval for Open World with Edit Distance Weak Supervision
- arxiv url: http://arxiv.org/abs/2506.20070v1
- Date: Wed, 25 Jun 2025 00:25:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.573388
- Title: Multimodal Information Retrieval for Open World with Edit Distance Weak Supervision
- Title(参考訳): 編集距離弱スーパービジョンを用いたオープンワールドのためのマルチモーダル情報検索
- Authors: KMA Solaiman, Bharat Bhargava,
- Abstract要約: FemmIRは、例えば類似性ラベルなしでマルチモーダルクエリで表現された情報に関連のある結果を検索するフレームワークである。
また,MuconoLの欠失症例に対してFemmIRを経験的に評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing multi-media retrieval models either rely on creating a common subspace with modality-specific representation models or require schema mapping among modalities to measure similarities among multi-media data. Our goal is to avoid the annotation overhead incurred from considering retrieval as a supervised classification task and re-use the pretrained encoders in large language models and vision tasks. We propose "FemmIR", a framework to retrieve multimodal results relevant to information needs expressed with multimodal queries by example without any similarity label. Such identification is necessary for real-world applications where data annotations are scarce and satisfactory performance is required without fine-tuning with a common framework across applications. We curate a new dataset called MuQNOL for benchmarking progress on this task. Our technique is based on weak supervision introduced through edit distance between samples: graph edit distance can be modified to consider the cost of replacing a data sample in terms of its properties, and relevance can be measured through the implicit signal from the amount of edit cost among the objects. Unlike metric learning or encoding networks, FemmIR re-uses the high-level properties and maintains the property value and relationship constraints with a multi-level interaction score between data samples and the query example provided by the user. We empirically evaluate FemmIR on a missing person use case with MuQNOL. FemmIR performs comparably to similar retrieval systems in delivering on-demand retrieval results with exact and approximate similarities while using the existing property identifiers in the system.
- Abstract(参考訳): 既存のマルチメディア検索モデルは、モダリティ固有の表現モデルを持つ共通部分空間を作成するか、あるいはマルチメディアデータ間の類似性を測定するために、モダリティ間のスキーママッピングを必要とする。
我々のゴールは、教師付き分類タスクとして検索を考慮せず、大きな言語モデルや視覚タスクで事前訓練されたエンコーダを再利用することである。
類似性ラベルを使わずに,マルチモーダルクエリで表現された情報要求に関するマルチモーダルな結果を検索するフレームワークであるFemmIRを提案する。
このような識別は、データアノテーションが不足し、アプリケーション横断の共通フレームワークを微調整することなく、十分なパフォーマンスが要求される現実世界のアプリケーションに必要である。
我々は、このタスクの進捗をベンチマークするために、MuQNOLと呼ばれる新しいデータセットをキュレートする。
本手法は, 被写体間の編集距離を補正することにより, 被写体間の編集距離を補正し, 被写体間の編集コストから, 暗黙的な信号によってデータサンプルの交換コストを計測する。
メトリック学習やエンコーディングネットワークとは異なり、FemmIRは高レベルなプロパティを再使用し、データサンプルとユーザが提供するクエリ例の間の多レベルインタラクションスコアとプロパティ値と関係制約を維持する。
MQNOLの欠失症例に対してFemmIRを経験的に評価した。
FemmIRは、システム内の既存のプロパティ識別子を使用しながら、正確にほぼ類似したオンデマンド検索結果を提供する際に、類似した検索システムと互換性がある。
関連論文リスト
- MultiConIR: Towards multi-condition Information Retrieval [57.6405602406446]
我々は,マルチコンディションシナリオにおける検索モデルの評価を目的とした,最初のベンチマークであるMultiConIRを紹介する。
本稿では,マルチコンディションのロバスト性,モノトニック関連性ランキング,クエリフォーマットの感度に基づいて,検索とリランクモデルの評価を行う3つのタスクを提案する。
論文 参考訳(メタデータ) (2025-03-11T05:02:03Z) - MI-DETR: An Object Detection Model with Multi-time Inquiries Mechanism [67.56918651825056]
並列マルチ時間問い合わせ(MI)機構を備えた新しいデコーダアーキテクチャを提案する。
我々のMIベースモデルであるMI-DETRはCOCOベンチマークで既存のDETRライクなモデルよりも優れています。
診断と可視化の一連の実験は、MIの有効性、合理性、解釈可能性を示している。
論文 参考訳(メタデータ) (2025-03-03T12:19:06Z) - Do Retrieval-Augmented Language Models Adapt to Varying User Needs? [28.729041459278587]
本稿では,3つのユーザニーズ条件下でALMを体系的に評価する新しい評価フレームワークを提案する。
ユーザインストラクションと検索された情報の性質の両方を変えることで、我々のアプローチは現実世界のアプリケーションの複雑さを捉えます。
本研究は,検索システム開発におけるユーザ中心評価の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-02-27T05:39:38Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Multi-Grained Query-Guided Set Prediction Network for Grounded Multimodal Named Entity Recognition [9.506482334842293]
Grounded Multimodal Named Entity Recognition (GMNER) は、新しい情報抽出(IE)タスクである。
近年,機械読解やシーケンス生成に基づくフレームワークを用いた統一手法は,この難易度に限界を生じさせている。
そこで我々は,Multi-fine Query-guided Set Prediction Network (MQSPN) という新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T05:42:43Z) - MMGRec: Multimodal Generative Recommendation with Transformer Model [81.61896141495144]
MMGRecは、マルチモーダルレコメンデーションに生成パラダイムを導入することを目指している。
まず,階層的な量子化手法であるGraph CF-RQVAEを考案し,各項目にRec-IDを割り当てる。
次に、Transformerベースのレコメンデータをトレーニングし、過去のインタラクションシーケンスに基づいて、ユーザが推奨するアイテムのRec-IDを生成する。
論文 参考訳(メタデータ) (2024-04-25T12:11:27Z) - How to Evaluate Entity Resolution Systems: An Entity-Centric Framework with Application to Inventor Name Disambiguation [1.7812428873698403]
本稿では,要約統計をモニタリングする統合フレームワークと統合したエンティティ中心のデータラベリング手法を提案する。
これらのベンチマークデータセットは、モデルトレーニングやさまざまな評価タスクに使用できる。
論文 参考訳(メタデータ) (2024-04-08T15:53:29Z) - SQLNet: Scale-Modulated Query and Localization Network for Few-Shot
Class-Agnostic Counting [71.38754976584009]
CAC(class-agnostic counting)タスクは、最近、任意のクラスの全てのオブジェクトを、入力画像にいくつかの例を付与してカウントする問題を解くために提案されている。
我々は、スケール変調クエリーおよびローカライズネットワーク(Net)と呼ばれる、新しいローカライズベースのCACアプローチを提案する。
クエリとローカライゼーションの段階において、模範者のスケールを完全に探求し、各オブジェクトを正確に位置付けし、その近似サイズを予測することで、効果的なカウントを実現している。
論文 参考訳(メタデータ) (2023-11-16T16:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。