Fugu-MT 論文翻訳(概要): Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study

論文の概要: Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study

arxiv url: http://arxiv.org/abs/2301.05174v2
Date: Tue, 10 Oct 2023 22:58:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 15:16:55.183496
Title: Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study
Title（参考訳）: Scene-centric vs. Object-centric Image-Text Cross-Modal Retrieval: Reproducibility Study
Authors: Mariya Hendriksen, Svitlana Vakulenko, Ernst Kuiper, Maarten de Rijke
Abstract要約: クロスモーダル検索(CMR)アプローチは通常、オブジェクト中心のデータセットに焦点を当てる。本稿では、データセットの種類によって異なる結果とそれらの一般化性に焦点を当てる。アーキテクチャの異なる2つの最先端CMRモデルを選択する。これらのデータセットから選択したモデルの相対的性能を決定する。
参考スコア（独自算出の注目度）: 55.964387734180114
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most approaches to cross-modal retrieval (CMR) focus either on object-centric datasets, meaning that each document depicts or describes a single object, or on scene-centric datasets, meaning that each image depicts or describes a complex scene that involves multiple objects and relations between them. We posit that a robust CMR model should generalize well across both dataset types. Despite recent advances in CMR, the reproducibility of the results and their generalizability across different dataset types has not been studied before. We address this gap and focus on the reproducibility of the state-of-the-art CMR results when evaluated on object-centric and scene-centric datasets. We select two state-of-the-art CMR models with different architectures: (i) CLIP; and (ii) X-VLM. Additionally, we select two scene-centric datasets, and three object-centric datasets, and determine the relative performance of the selected models on these datasets. We focus on reproducibility, replicability, and generalizability of the outcomes of previously published CMR experiments. We discover that the experiments are not fully reproducible and replicable. Besides, the relative performance results partially generalize across object-centric and scene-centric datasets. On top of that, the scores obtained on object-centric datasets are much lower than the scores obtained on scene-centric datasets. For reproducibility and transparency we make our source code and the trained models publicly available.
Abstract（参考訳）: クロスモーダル検索(CMR)へのほとんどのアプローチは、オブジェクト中心のデータセット、つまり各ドキュメントが1つのオブジェクトを描写または記述すること、またはシーン中心のデータセットに焦点を当てている。我々は、ロバストなcmrモデルが両方のデータセットタイプをまたいでうまく一般化するべきであると仮定する。 CMRの最近の進歩にもかかわらず、結果の再現性と、異なるデータセットタイプにわたるそれらの一般化性は、これまで研究されていない。我々はこのギャップに対処し,オブジェクト中心およびシーン中心のデータセット上での評価において,最先端のcmr結果の再現性に注目する。アーキテクチャの異なる2つの最先端CMRモデルを選択します。 (i)CLIP、および (ii)x-vlm。さらに,シーン中心のデータセットを2つ,オブジェクト中心のデータセットを3つ選択し,これらのデータセット上で選択したモデルの相対性能を決定する。先行するcmr実験の結果の再現性,再現性,一般化性に注目した。実験が完全に再現可能で複製可能でないことが分かりました。さらに、相対的なパフォーマンス結果は、オブジェクト中心およびシーン中心のデータセットで部分的に一般化される。さらに、オブジェクト中心のデータセットで得られるスコアは、シーン中心のデータセットで得られるスコアよりもはるかに低い。再現性と透明性のために、ソースコードとトレーニング済みモデルを公開しています。

関連論文リスト

FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文参考訳（メタデータ） (2024-09-23T06:56:51Z)
dacl1k: Real-World Bridge Damage Dataset Putting Open-Source Data to the Test [0.6827423171182154]
dacl1kは1,474枚の画像を含む建築検査に基づく多ラベル分類のための多ラベルRCDデータセットである。我々は、オープンソースデータ(メタデータセット)の異なる組み合わせに基づいてモデルを訓練し、その後、外在的にも内在的にも評価された。 dacl1kの性能分析は、メタデータの実用性を示し、最良のモデルでは、Exact Match比が32%である。
論文参考訳（メタデータ） (2023-09-07T15:05:35Z)
OCTScenes: A Versatile Real-World Dataset of Tabletop Scenes for Object-Centric Learning [41.09407455527254]
OCTScenes と呼ばれるオブジェクト中心学習のためのテーブルトップシーンの多用途実世界のデータセットを提案する。 OCTScenesには5000のテーブルトップシーンがあり、合計で15のオブジェクトがある。オブジェクト中心学習手法の比較、評価、分析のためのベンチマークとして、慎重に設計されている。
論文参考訳（メタデータ） (2023-06-16T08:26:57Z)
MMRDN: Consistent Representation for Multi-View Manipulation Relationship Detection in Object-Stacked Scenes [62.20046129613934]
我々は,MMRDN(Multi-view MRD Network)と呼ばれる新しい多視点融合フレームワークを提案する。異なるビューからの2Dデータを共通の隠れ空間に投影し、埋め込みをVon-Mises-Fisher分布に適合させる。これら2つのオブジェクトの相対位置を符号化した各オブジェクト対の点雲から、K$最大垂直近傍点(KMVN)の集合を選択する。
論文参考訳（メタデータ） (2023-04-25T05:55:29Z)
Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文参考訳（メタデータ） (2023-04-04T17:54:32Z)
Mitigating Representation Bias in Action Recognition: Algorithms and Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文参考訳（メタデータ） (2022-09-20T00:30:35Z)
Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文参考訳（メタデータ） (2022-07-17T07:05:39Z)
Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文参考訳（メタデータ） (2021-05-07T03:49:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。