論文の概要: Learning Sparse Disentangled Representations for Multimodal Exclusion Retrieval
- arxiv url: http://arxiv.org/abs/2504.03184v1
- Date: Fri, 04 Apr 2025 05:23:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:46:57.187683
- Title: Learning Sparse Disentangled Representations for Multimodal Exclusion Retrieval
- Title(参考訳): マルチモーダル排他検索のためのスパースアングル表現の学習
- Authors: Prachi, Sumit Bhatia, Srikanta Bedathur,
- Abstract要約: マルチモーダル表現はクロスモーダル検索には不可欠であるが、しばしば解釈可能性に欠ける。
本稿では,解離を抑えるとともに,検索タスクの制御性を高めつつ,コンパクトで固定サイズの埋め込みを生成する手法を提案する。
- 参考スコア(独自算出の注目度): 21.584605751842183
- License:
- Abstract: Multimodal representations are essential for cross-modal retrieval, but they often lack interpretability, making it difficult to understand the reasoning behind retrieved results. Sparse disentangled representations offer a promising solution; however, existing methods rely heavily on text tokens, resulting in high-dimensional embeddings. In this work, we propose a novel approach that generates compact, fixed-size embeddings that maintain disentanglement while providing greater control over retrieval tasks. We evaluate our method on challenging exclusion queries using the MSCOCO and Conceptual Captions benchmarks, demonstrating notable improvements over dense models like CLIP, BLIP, and VISTA (with gains of up to 11% in AP@10), as well as over sparse disentangled models like VDR (achieving up to 21% gains in AP@10). Furthermore, we present qualitative results that emphasize the enhanced interpretability of our disentangled representations.
- Abstract(参考訳): マルチモーダル表現は、クロスモーダル検索には不可欠であるが、しばしば解釈可能性に欠けており、検索された結果の背後にある推論を理解することは困難である。
しかし、既存のメソッドはテキストトークンに大きく依存しており、結果として高次元の埋め込みをもたらす。
本研究では,検索タスクの制御性を高めつつ,絡み合いを抑える,コンパクトで固定サイズの埋め込みを生成する新しい手法を提案する。
MSCOCOとConceptual Captionsベンチマークを用いて,提案手法の評価を行い,CLIP,BLIP,VISTAなどの高密度モデル(AP@10では最大11%,VDRでは最大21%,AP@10では最大21%)に対する顕著な改善点を示した。
さらに,不整合表現の解釈可能性の向上を強調する定性的な結果を示す。
関連論文リスト
- Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints [15.541287957548771]
本稿では,粗大な一貫性制約を持つビジュアルグラウンドアーキテクチャを提案する。
暗黙的かつ明示的なモデリングアプローチを2段階のフレームワークに統合する。
最先端のREC法とRIS法を実質的なマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2025-01-12T04:30:13Z) - USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。
我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-12T12:20:27Z) - Uncertainty Quantification via Hölder Divergence for Multi-View Representation Learning [18.419742575630217]
本稿では,H"older Divergence (HD)に基づく新しいアルゴリズムを導入し,多視点学習の信頼性を高める。
デンプスター・シェーファー理論を通じて、異なるモダリティからの不確実性の統合により、包括的な結果が生成される。
数学的には、HDは実際のデータ分布とモデルの予測分布の間の距離'をよりよく測定できることを証明している。
論文 参考訳(メタデータ) (2024-10-29T04:29:44Z) - Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo [55.452453947359736]
Twisted Sequential Monte Carlo(TSMC)に基づく新しい検証手法を提案する。
TSMCを大規模言語モデルに適用し、部分解に対する将来的な報酬を推定する。
このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。
論文 参考訳(メタデータ) (2024-10-02T18:17:54Z) - Diffusion Spectral Representation for Reinforcement Learning [17.701625371409644]
本稿では,表現学習の観点からの強化学習に拡散モデルの柔軟性を活用することを提案する。
拡散モデルとエネルギーベースモデルとの接続を利用して拡散スペクトル表現(Diff-SR)を開発する。
Diff-SRは、拡散モデルからのサンプリングの難易度と推論コストを明示的に回避しつつ、効率的なポリシー最適化と実用的なアルゴリズムを実現する方法を示す。
論文 参考訳(メタデータ) (2024-06-23T14:24:14Z) - Inverse-RLignment: Large Language Model Alignment from Demonstrations through Inverse Reinforcement Learning [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Enhancing Representation Learning on High-Dimensional, Small-Size
Tabular Data: A Divide and Conquer Method with Ensembled VAEs [7.923088041693465]
特徴空間の部分集合の後方部分集合を学習するための軽量なVAEのアンサンブルを, 新規な分割コンカレントアプローチで結合後部分集合に集約する。
このアプローチは推論時に部分的な機能に対して堅牢であることを示し、ほとんどの機能が欠落していても、パフォーマンスの劣化がほとんどないことを示します。
論文 参考訳(メタデータ) (2023-06-27T17:55:31Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。
我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。
そして、理論的に学習された潜在表現の多元性を証明する。
論文 参考訳(メタデータ) (2020-11-12T02:29:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。