論文の概要: Haphazard Inputs as Images in Online Learning
- arxiv url: http://arxiv.org/abs/2504.02912v1
- Date: Thu, 03 Apr 2025 11:14:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:49:58.581698
- Title: Haphazard Inputs as Images in Online Learning
- Title(参考訳): オンライン学習における画像としてのハファザード入力
- Authors: Rohit Agarwal, Aryan Dessai, Arif Ahmed Sekh, Krishna Agarwal, Alexander Horsch, Dilip K. Prasad,
- Abstract要約: 本稿では,オンライン学習環境における様々な特徴空間を,その場で一定次元の画像表現に変換することを提案する。
この単純で斬新なアプローチはモデルに依存しないため、どんな視覚ベースのモデルでもハファザード入力に適用できる。
画像表現は、一貫性のない入力データをシームレスに処理し、提案手法をスケーラブルかつ堅牢にする。
- 参考スコア(独自算出の注目度): 44.07541851188309
- License:
- Abstract: The field of varying feature space in online learning settings, also known as haphazard inputs, is very prominent nowadays due to its applicability in various fields. However, the current solutions to haphazard inputs are model-dependent and cannot benefit from the existing advanced deep-learning methods, which necessitate inputs of fixed dimensions. Therefore, we propose to transform the varying feature space in an online learning setting to a fixed-dimension image representation on the fly. This simple yet novel approach is model-agnostic, allowing any vision-based models to be applicable for haphazard inputs, as demonstrated using ResNet and ViT. The image representation handles the inconsistent input data seamlessly, making our proposed approach scalable and robust. We show the efficacy of our method on four publicly available datasets. The code is available at https://github.com/Rohit102497/HaphazardInputsAsImages.
- Abstract(参考訳): オンライン学習環境における様々な特徴空間(ハファザード入力)の分野は、近年、様々な分野に適用可能であるため、非常に顕著である。
しかし、ハファザード入力に対する現在のソリューションはモデルに依存しており、固定次元の入力を必要とする既存の高度なディープラーニング手法の恩恵を受けることができない。
そこで本研究では,オンライン学習環境における様々な特徴空間を,その場で一定次元の画像表現に変換することを提案する。
この単純で斬新なアプローチは、ResNetとViTを使って実証したように、あらゆる視覚ベースのモデルをハファザード入力に適用できるモデルに依存しない。
画像表現は、一貫性のない入力データをシームレスに処理し、提案手法をスケーラブルかつ堅牢にする。
提案手法の有効性を4つの公開データセットに示す。
コードはhttps://github.com/Rohit102497/HaphazardInputsAsImagesで公開されている。
関連論文リスト
- MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。
マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文 参考訳(メタデータ) (2025-01-20T06:56:30Z) - Context-Based Visual-Language Place Recognition [4.737519767218666]
視覚に基づく位置認識に対する一般的なアプローチは、低レベルの視覚的特徴に依存している。
シーン変更に対して堅牢で,追加のトレーニングを必要としない,新しいVPRアプローチを導入する。
ゼロショット・言語駆動セマンティックセグメンテーションモデルを用いて画素レベルの埋め込みを抽出し,セマンティックイメージ記述子を構築する。
論文 参考訳(メタデータ) (2024-10-25T06:59:11Z) - Vector Field Attention for Deformable Image Registration [9.852055065890479]
変形可能な画像登録は、固定画像と移動画像の間の非線形空間対応を確立する。
既存のディープラーニングベースの手法では、ニューラルネットワークが特徴マップの位置情報をエンコードする必要がある。
本稿では、位置対応の直接検索を可能にすることにより、既存のネットワーク設計の効率を高める新しいフレームワークであるベクトル場注意(VFA)を提案する。
論文 参考訳(メタデータ) (2024-07-14T14:06:58Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - A Robust and Interpretable Deep Learning Framework for Multi-modal
Registration via Keypoints [10.913822141584795]
ディープラーニングベースの画像登録フレームワークであるKeyMorphを紹介する。
KeyMorphは対応するキーポイントを自動的に検出する。
我々は現在の最先端手法を超越した登録精度を示す。
論文 参考訳(メタデータ) (2023-04-19T19:35:25Z) - Black Box Few-Shot Adaptation for Vision-Language models [41.49584259596654]
ヴィジュアル・ランゲージ(V-L)モデルは、視覚的・言語的モダリティを整合させるために、対照的な学習で訓練された。
本稿では,プリコンパイルされた画像とテキストの特徴に基づいて,V-L小ショット適応のためのブラックボックス手法について述べる。
対象領域におけるV-L再アライメントに対する単純な線形アプローチである線形特徴アライメント(LFA)を提案する。
論文 参考訳(メタデータ) (2023-04-04T12:42:29Z) - Visualising Deep Network's Time-Series Representations [93.73198973454944]
機械学習モデルの普及にもかかわらず、多くの場合、モデルの内部で起きていることに関する洞察のないブラックボックスとして運用される。
本稿では,多次元時系列データの可視化に着目し,この問題に対処する手法を提案する。
高周波在庫市場データセットの実験は、この方法が迅速かつ識別可能な可視化を提供することを示しています。
論文 参考訳(メタデータ) (2021-03-12T09:53:34Z) - Learning to Learn Parameterized Classification Networks for Scalable
Input Images [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、入力解像度の変化に関して予測可能な認識動作を持たない。
我々はメタラーナーを用いて、様々な入力スケールのメインネットワークの畳み込み重みを生成する。
さらに、異なる入力解像度に基づいて、モデル予測よりもフライでの知識蒸留を利用する。
論文 参考訳(メタデータ) (2020-07-13T04:27:25Z) - Exchangeable Input Representations for Reinforcement Learning [48.696389129611056]
本研究は、ニューラルネットワーク入力を効率的な表現空間に投影するための注意に基づく手法を提案する。
提案した表現は、$m$オブジェクトの入力に対して$m!$の要素である入力空間が得られることを示す。
論文 参考訳(メタデータ) (2020-03-19T21:18:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。