論文の概要: MS-DPPs: Multi-Source Determinantal Point Processes for Contextual Diversity Refinement of Composite Attributes in Text to Image Retrieval
- arxiv url: http://arxiv.org/abs/2507.06654v1
- Date: Wed, 09 Jul 2025 08:38:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.52955
- Title: MS-DPPs: Multi-Source Determinantal Point Processes for Contextual Diversity Refinement of Composite Attributes in Text to Image Retrieval
- Title(参考訳): MS-DPPs: テキストから画像検索への複合属性の文脈的多様性保持のためのマルチソース決定点プロセス
- Authors: Naoya Sogi, Takashi Shibata, Makoto Terao, Masanori Suganuma, Takayuki Okatani,
- Abstract要約: 本稿では,CDR-CA (Contextual Diversity Refinement of Composite Attributes) と呼ばれる新しいタスクを提案する。
CDR-CAは、アプリケーションのコンテキストに応じて、複数の属性の多様性を洗練することを目的としている。
本稿では,DPP(Determinantal Point Process)をマルチソースに拡張する,シンプルながら強力なベースラインであるMulti-Source DPPを提案する。
- 参考スコア(独自算出の注目度): 22.21287446132952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Result diversification (RD) is a crucial technique in Text-to-Image Retrieval for enhancing the efficiency of a practical application. Conventional methods focus solely on increasing the diversity metric of image appearances. However, the diversity metric and its desired value vary depending on the application, which limits the applications of RD. This paper proposes a novel task called CDR-CA (Contextual Diversity Refinement of Composite Attributes). CDR-CA aims to refine the diversities of multiple attributes, according to the application's context. To address this task, we propose Multi-Source DPPs, a simple yet strong baseline that extends the Determinantal Point Process (DPP) to multi-sources. We model MS-DPP as a single DPP model with a unified similarity matrix based on a manifold representation. We also introduce Tangent Normalization to reflect contexts. Extensive experiments demonstrate the effectiveness of the proposed method. Our code is publicly available at https://github.com/NEC-N-SOGI/msdpp.
- Abstract(参考訳): 結果の多様化(RD)は,実用アプリケーションの効率を高めるために,テキストから画像への検索において重要な手法である。
従来の手法では、画像の外観の多様性指標の増大にのみ焦点が当てられている。
しかし、多様性の計量とその望ましい値は、RDの応用を制限するアプリケーションによって異なる。
本稿では,CDR-CA(Contextual Diversity Refinement of Composite Attributes)と呼ばれる新しいタスクを提案する。
CDR-CAは、アプリケーションのコンテキストに応じて、複数の属性の多様性を洗練することを目的としている。
そこで本研究では,DPP(Determinantal Point Process)をマルチソースに拡張した,シンプルながら強力なベースラインであるMulti-Source DPPを提案する。
我々は、多様体表現に基づく統一類似性行列を持つ単一のDPPモデルとしてMS-DPPをモデル化する。
文脈を反映するタンジェント正規化も導入する。
大規模実験により提案手法の有効性が示された。
私たちのコードはhttps://github.com/NEC-N-SOGI/msdpp.comで公開されています。
関連論文リスト
- IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.38841251693781]
本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。
我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。
3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-03-13T13:00:31Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。
長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。
ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文 参考訳(メタデータ) (2024-11-04T08:50:16Z) - Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications [3.7636375810345744]
大きな言語モデル(LLM)は、質問に答える際、印象的な能力を示してきたが、それらはドメイン固有の知識に欠け、幻覚を起こす傾向がある。
Retrieval Augmented Generation(RAG)は、これらの課題に対処するためのアプローチのひとつであり、マルチモーダルモデルは、テキストとイメージの両方を処理するための有望なAIアシスタントとして現れている。
本稿では,産業領域のRAGシステムにマルチモーダルモデルをどのように組み込むかを決定するための一連の実験について述べる。
論文 参考訳(メタデータ) (2024-10-29T11:03:31Z) - Learning on Bandwidth Constrained Multi-Source Data with MIMO-inspired
DPP MAP Inference [0.5675520944829118]
分散ソース間でMAP推論を行うための戦略を提案する。
多様性を最大化する分散サンプル選択問題の下位境界を電力配分問題として扱うことができることを示す。
本手法は,情報源間の生データ交換を必要とせず,軽量な多様性測定を行うための帯域制限フィードバックチャネルである。
論文 参考訳(メタデータ) (2023-06-04T22:16:49Z) - RD-DPP: Rate-Distortion Theory Meets Determinantal Point Process to
Diversify Learning Data Samples [0.5675520944829118]
交通映像解析などの実践的な学習タスクでは、利用可能なトレーニングサンプルの数は異なる要因によって制限される。
本稿では,Rate-Distortion(RD)理論に基づくタスク指向の多様性測定手法を提案する。
論文 参考訳(メタデータ) (2023-04-09T02:22:31Z) - LMR: A Large-Scale Multi-Reference Dataset for Reference-based
Super-Resolution [86.81241084950524]
参照ベース超解像(RefSR)は、単一の画像超解像(SISR)と比較して、類似した高品質な画像を参照することで優れた結果が得られると広く合意されている。
以前のRefSR手法はすべて単一参照イメージトレーニングに重点を置いているが、複数の参照イメージはテストや実用的なアプリケーションでしばしば利用できる。
我々はLMRと呼ばれる大規模なマルチ参照超解像データセットを構築し、300x300のトレーニング画像の112,142グループを含み、これは既存の最大のRefSRデータセットの10倍である。
論文 参考訳(メタデータ) (2023-03-09T01:07:06Z) - MPI: Multi-receptive and Parallel Integration for Salient Object
Detection [17.32228882721628]
深い特徴のセマンティック表現は、画像コンテキスト理解に不可欠である。
本稿では,MPIと呼ばれる新しい手法を提案する。
提案手法は,異なる評価基準下での最先端手法よりも優れる。
論文 参考訳(メタデータ) (2021-08-08T12:01:44Z) - Deep Multimodal Fusion by Channel Exchanging [87.40768169300898]
本稿では,異なるモードのサブネットワーク間で動的にチャネルを交換するパラメータフリーマルチモーダル融合フレームワークを提案する。
このような交換プロセスの有効性は、畳み込みフィルタを共有してもBN層をモダリティで分離しておくことで保証される。
論文 参考訳(メタデータ) (2020-11-10T09:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。