論文の概要: Cosine meets Softmax: A tough-to-beat baseline for visual grounding
- arxiv url: http://arxiv.org/abs/2009.06066v1
- Date: Sun, 13 Sep 2020 19:35:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 02:42:29.189961
- Title: Cosine meets Softmax: A tough-to-beat baseline for visual grounding
- Title(参考訳): cosine meets softmax:ビジュアルグラウンドのための強烈なベースライン
- Authors: Nivedita Rufus, Unni Krishnan R Nair, K. Madhava Krishna and Vineet
Gandhi
- Abstract要約: 本フレームワークは,テキスト埋め込みによる複数画像ROI特徴間のコサイン距離におけるクロスエントロピー損失を最小限に抑える。
Talk2Carデータセットで実験を行い、68.7%のAP50精度を実現した。
- 参考スコア(独自算出の注目度): 17.316608734530124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a simple baseline for visual grounding for
autonomous driving which outperforms the state of the art methods, while
retaining minimal design choices. Our framework minimizes the cross-entropy
loss over the cosine distance between multiple image ROI features with a text
embedding (representing the give sentence/phrase). We use pre-trained networks
for obtaining the initial embeddings and learn a transformation layer on top of
the text embedding. We perform experiments on the Talk2Car dataset and achieve
68.7% AP50 accuracy, improving upon the previous state of the art by 8.6%. Our
investigation suggests reconsideration towards more approaches employing
sophisticated attention mechanisms or multi-stage reasoning or complex metric
learning loss functions by showing promise in simpler alternatives.
- Abstract(参考訳): 本稿では、最小限の設計選択を保ちながら、技術手法の状態を向上する、自律走行のための視覚的接地のためのシンプルなベースラインを提案する。
本フレームワークは,複数画像ROI特徴量間のコサイン距離におけるクロスエントロピー損失を最小化し,テキスト埋め込み(返り文/フレーズ表現)を行う。
トレーニング済みのネットワークを使用して、初期埋め込みを取得し、テキスト埋め込みの上にトランスフォーメーション層を学習する。
我々は、talk2carデータセットで実験を行い、68.7%のap50精度を達成し、以前の技術水準を8.6%改善した。
本研究は,より高度な注意機構や多段階推論,あるいは複雑なメトリック学習損失関数を用いたアプローチの再考を,より単純な代替手段で示すことによって提案する。
関連論文リスト
- Towards Cross-View-Consistent Self-Supervised Surround Depth Estimation [9.569646683579899]
連続画像からの自己監督下周深度推定は経済的な代替手段を提供する。
従来のSSSDE法では、画像間で情報を融合する異なるメカニズムが提案されているが、それらのいくつかは、クロスビュー制約を明示的に考慮している。
本稿では,SSSDEのクロスビュー一貫性を高めるために,効率的で一貫したポーズ推定設計と2つの損失関数を提案する。
論文 参考訳(メタデータ) (2024-07-04T16:29:05Z) - Is Cross-modal Information Retrieval Possible without Training? [4.616703548353372]
Procrustes問題に対する解の最小二乗と特異値分解(SVD)から計算した単純な写像をとる。
すなわち、テキストのようなあるモダリティの情報が与えられた場合、このマッピングは、画像のような別のモダリティにおける意味的に等価なデータ項目を見つけるのに役立ちます。
既訓練の深層学習モデルを用いて,テキスト・ツー・イメージ検索と画像・トゥ・テキスト検索のタスクにおいて,上記の単純なモーダル・マッピングを実験した。
論文 参考訳(メタデータ) (2023-04-20T02:36:18Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z) - Contrastive Learning of Visual-Semantic Embeddings [4.7464518249313805]
本稿では,正規化されたクロスエントロピーに基づく2つの損失関数を提案する。
本研究は,画像・テキスト・テキスト・画像検索タスクにおける既存のビジュアル・セマンティックな埋め込み手法と比較する。
論文 参考訳(メタデータ) (2021-10-17T17:28:04Z) - Relation-aware Instance Refinement for Weakly Supervised Visual
Grounding [44.33411132188231]
visual groundingは、ビジュアルオブジェクトとその言語エンティティ間の対応を構築することを目的としている。
本稿では,オブジェクトの細粒化とエンティティ関係モデリングを組み込んだ,新しい弱教師付き学習手法を提案する。
2つの公開ベンチマークの実験は、我々のフレームワークの有効性を実証している。
論文 参考訳(メタデータ) (2021-03-24T05:03:54Z) - Co-Grounding Networks with Semantic Attention for Referring Expression
Comprehension in Videos [96.85840365678649]
エレガントなワンステージの枠組みで動画の表現理解を参照する問題に取り組みます。
意味的注意学習により単フレーム接地精度を高め、クロスフレーム接地一貫性を向上させます。
私たちのモデルは、RefCOCOデータセットのパフォーマンス改善によって示される、画像の表現理解の参照にも適用できます。
論文 参考訳(メタデータ) (2021-03-23T06:42:49Z) - Recurrent Multi-view Alignment Network for Unsupervised Surface
Registration [79.72086524370819]
非厳格な登録をエンドツーエンドで学習することは、本質的に高い自由度とラベル付きトレーニングデータの欠如により困難である。
我々は、いくつかの剛性変換のポイントワイドな組み合わせで、非剛性変換を表現することを提案する。
また,投影された多視点2次元深度画像上での3次元形状の類似度を計測する可微分損失関数も導入する。
論文 参考訳(メタデータ) (2020-11-24T14:22:42Z) - Progressively Guided Alternate Refinement Network for RGB-D Salient
Object Detection [63.18846475183332]
我々は,RGB-Dの高次物体検出のための効率的かつコンパクトなディープネットワークを開発することを目指している。
そこで本研究では,改良のための改良ネットワークを提案する。
我々のモデルは、既存の最先端のアプローチよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-08-17T02:55:06Z) - Dense Regression Network for Video Grounding [97.57178850020327]
地上の真理の中のフレームと開始(終了)フレームの間の距離を高密度の監督として利用し、映像のグラウンド化精度を向上させる。
具体的には、各フレームからビデオセグメントの開始(終了)フレームまでの距離を抑えるために、新しい高密度回帰ネットワーク(DRN)を設計する。
また,グラウンドリング結果の局所化品質を明示的に考慮するために,単純だが効果的なIoU回帰ヘッドモジュールを提案する。
論文 参考訳(メタデータ) (2020-04-07T17:15:37Z) - Scan-based Semantic Segmentation of LiDAR Point Clouds: An Experimental
Study [2.6205925938720833]
最先端の手法では、深いニューラルネットワークを使用して、LiDARスキャンの各点のセマンティッククラスを予測する。
LiDAR測定を処理するための強力で効率的な方法は、2次元の画像のような投影を使うことである。
メモリの制約だけでなく、パフォーマンスの向上やランタイムの改善など、さまざまなテクニックを実証する。
論文 参考訳(メタデータ) (2020-04-06T11:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。